Die KI-Landschaft brodelt: Regelmäßig lesen wir neue Nachrichten von KI-Modellen, die angeblich alles Bisherige in den Schatten stellen. Einer der aktuellen Stars ist aktuell DeepSeek, ein chinesisches KI-Unternehmen, das mit effizienten und leistungsstarken Modellen wie DeepSeek-R1 und DeepSeek-Chat auf sich aufmerksam macht. Bereits im Juni hatte ich bereits im Beitrag DeepSeek Coder: Ein neuer Meilenstein in der Open-Source KI über Entwicklungen aus diesem Unternehmen berichtet. Doch was steckt wirklich hinter dem aktuellen Hype? Und wie schlägt sich DeepSeek im Vergleich zu Giganten wie GPT-4, Google Gemini oder Claude? Schauen wir es uns an!
Warum DeepSeek plötzlich alle begeistert
DeepSeek ist ein in Hangzhou ansässiges Start-up mit ca. 200 Mitarbeitenden, das 2023 gegründet wurde und sich auf die Entwicklung von Künstlicher Intelligenz spezialisiert hat. Das Unternehmen hat mit seinen Modellen, insbesondere dem DeepSeek-R1, Aufmerksamkeit erregt, da diese in ihrer Leistung mit führenden Modellen wie OpenAIs o1 vergleichbar sind, jedoch zu deutlich geringeren Kosten entwickelt wurden (siehe Reuters). DeepSeek-R1 ist ein Open-Source KI-Modell, das entwickelt wurde, um Aufgaben zu lösen, die logisches Denken, mathematische Problemlösung und Entscheidungsfindung in Echtzeit erfordern.
Während andere Modelle mit immer größeren Parameterzahlen (den „Gehirnzellen“ der KI) protzen, setzt DeepSeek auf schlankes Design und optimierte Trainingsdaten. Das Ergebnis? Eine KI, die laut Benchmarks mit GPT-4 mithalten kann – aber schneller, kostengünstiger und ressourcenschonender ist. Ein herausragendes Merkmal von DeepSeek-R1 ist zudem seine Fähigkeit, den Denkprozess transparent darzustellen, was es Nutzerinnen und Nutzern ermöglicht, die Schlussfolgerungen des Modells besser nachzuvollziehen. Vor allem diese Tatsache fand ich bei meinen Experimenten mit R1 besonders bemerkenswert.
DeepSeek Benchmarks
DeepSeek-R1 wurde einer Reihe von Benchmarks unterzogen, um seine Fähigkeiten in den Bereichen Mathematik, Programmierung und Sprachverständnis zu evaluieren (Details siehe hier). Solche Tests bieten eine objektive Vergleichsbasis mit anderen führenden KI-Modellen wie OpenAIs GPT-4, Claude von Anthropic und Googles Gemini. Die nachfolgenden Ergebnisse verdeutlichen, wo DeepSeek-R1 besonders stark ist und in welchen Bereichen noch Verbesserungspotenzial besteht.
Mathematische Fähigkeiten
Mathematische Probleme sind eine große Herausforderung für Sprachmodelle, da sie logisches Denken, abstrakte Konzepte und oft mehrstufige Berechnungen erfordern. R1 wurde in zwei renommierten mathematischen Benchmarks getestet:
- AIME 2024 Benchmark
- Zweck: Der American Invitational Mathematics Examination (AIME) ist eine international anerkannte Prüfung, die fortgeschrittene mathematische Problemlösungsfähigkeiten testet. Dieser Test gilt als eine der härtesten Prüfungen für mathematische Problemlösungsfähigkeiten. Viele KI-Modelle scheitern an der logischen Komplexität und den ausgeklügelten Fragestellungen.
- Durchführung: KI-Modelle müssen komplexe mathematische Aufgaben lösen, die über Schulmathematik hinausgehen und tiefergehende algebraische, kombinatorische und analytische Fähigkeiten erfordern.
- Ergebnis: DeepSeek-R1 erreichte eine Pass@1-Genauigkeit von 79,8 %, was leicht über den 79,2 % von OpenAIs o1 lag. Dies deutet darauf hin, dass R1 bei mathematischen Problemstellungen präzise und zuverlässig arbeitet und damit eine eine robuste Fähigkeit zur Bearbeitung mathematischer und algorithmischer Herausforderungen zeigt. Für ein vergleichsweise junges KI-Modell ist das ein bemerkenswertes Ergebnis.
- MATH-500 Benchmark
- Zweck: Der MATH-500-Test wurde entwickelt, um KI-Modelle auf hochkomplexe mathematische Aufgaben aus Bereichen wie Algebra, Geometrie und Wahrscheinlichkeit zu prüfen.
- Durchführung: Das Modell muss Aufgaben aus einer Sammlung von 500 mathematischen Problemen lösen, die schrittweises logisches Denken und präzise Berechnungen erfordern.
- Ergebnis: DeepSeek-R1 erzielte eine Genauigkeit von 97,3 %, während OpenAIs o1 96,4 % erreichte. Das zeigt, dass das Modell hervorragend darin ist, mathematische Probleme mit hoher Genauigkeit zu lösen. R1 stellt sich hier als mathematisches Kraftpaket dar und kann vor allem für wissenschaftliche Forschung, im Ingenieurwesen und in der Bildung besonders wertvoll sein.
Programmierfähigkeiten
Da KI-Modelle zunehmend für die Softwareentwicklung eingesetzt werden, sind Benchmark-Tests im Bereich des Codings entscheidend. DeepSeek-R1 wurde mit zwei gängigen Programmierbenchmarks evaluiert:
- Codeforces Benchmark
- Zweck: Codeforces ist eine der weltweit führenden Plattformen für kompetitives Programmieren. Der Test bewertet, wie gut ein Modell in der Lage ist, algorithmische Herausforderungen zu bewältigen.
- Durchführung: KI-Modelle müssen reale Wettbewerbsaufgaben aus Codeforces lösen, die eine Kombination aus Algorithmusverständnis, Datenstrukturen und Optimierungsfähigkeiten erfordern.
- Ergebnis: DeepSeek-R1 erreichte eine Platzierung im 96,3. Perzentil mit einer Bewertung von 2029, während OpenAIs o1 mit 96,6 % (Bewertung: 2061) leicht besser abschnitt. Das zeigt, dass R1 nahezu auf dem Niveau führender Programmiermodelle liegt.
- LiveCodeBench
- Zweck: Dieser Test bewertet, wie gut ein Modell in der Lage ist, realistische Programmieraufgaben zu lösen, die echte Softwareentwicklungsherausforderungen simulieren. Es wird getestet, wie gut ein Modell Code generieren, korrigieren und vervollständigen kann.
- Durchführung: KI-Modelle müssen Code-Fragmente vervollständigen, Fehler im Code identifizieren und komplexe Programmierlogik umsetzen.
- Ergebnis: R1 erzielte eine Pass@1-Genauigkeit von 65,9 %, was über den 63,4 % von OpenAIs o1 liegt. Dies zeigt, dass DeepSeek-R1 in der Lage ist, Code effizient zu generieren und anzupassen und mehr noch, dass R1 eine vielversprechende Wahl für KI-gestützte Programmierung sein könnte.
Allgemeinwissen und Sprachverständnis
Neben Mathematik und Programmierung wurden auch die Fähigkeiten von DeepSeek-R1 im Bereich des allgemeinen Sprachverständnisses und der Faktenkenntnis getestet.
- GPQA-Diamond Benchmark
- Zweck: Der General-Purpose Question Answering (GPQA)-Test misst die Fähigkeit eines Modells, auf allgemeine Wissensfragen zu antworten, die über Schulwissen hinausgehen. Kurz gesagt: Ein niedriger Wert bedeutet, dass ein Modell Schwierigkeiten hat, auf komplexe Fakten- und Wissensfragen zu antworten.
- Durchführung: Die KI erhält eine Reihe von anspruchsvollen Fragen, die logische Schlussfolgerungen und tiefergehendes Wissen aus verschiedenen Disziplinen erfordern.
- Ergebnis: DeepSeek-R1 erzielte eine Pass@1-Genauigkeit von 71,5 %, während OpenAIs o1 mit 75,7 % leicht überlegen war. Das deutet darauf hin, dass R1 ein solides Verständnis von Faktenwissen hat, jedoch noch nicht auf dem Niveau der besten Modelle liegt.
- MMLU (Measuring Massive Multitask Language Understanding)
- Zweck: Dieser Test ist ein Maßstab für das tiefgehende Sprachverständnis eines KI-Modells über mehrere Disziplinen hinweg. Er umfasst Themen aus den Geistes-, Natur- und Sozialwissenschaften.
- Durchführung: KI-Modelle müssen Multiple-Choice-Fragen aus über 50 verschiedenen Wissensgebieten beantworten, die von Geschichte und Philosophie bis hin zu Physik und Medizin reichen.
- Ergebnis: DeepSeek-R1 erreichte eine Genauigkeit von 90,8 %, während OpenAIs o1 91,8 % erreichte. Das zeigt, dass DeepSeek-R1 ein sehr gutes Sprachverständnis besitzt und mit führenden Modellen konkurrieren kann.
Die Benchmark-Tests zeigen, dass DeepSeek-R1 in mathematischen und programmierbezogenen Aufgaben herausragende Leistungen erbringt. Es übertrifft OpenAIs o1 in einigen Bereichen, insbesondere in der mathematischen Problemlösung, und liegt in anderen Bereichen wie Programmierung sogar auf Augenhöhe. Im Bereich des Allgemeinwissens und der Sprachverarbeitung zeigt DeepSeek-R1 ebenfalls starke Ergebnisse, bleibt jedoch in bestimmten Disziplinen knapp hinter OpenAIs o1 zurück. Das zu wissen ist wichtig insbesondere für Anwendungen in Chatbots, digitalen Assistenten oder journalistischen KI-Systemen, die auf akkurates Faktenwissen angewiesen sind. Da ist bei DeepSeek-R1 in der Tat noch Nachholbedarf.
Diese Ergebnisse machen aber auch deutlich, dass DeepSeek-R1 ein hochleistungsfähiges KI-Modell ist, das insbesondere für Anwendungen in Mathematik, Programmierung und komplexen Denkaufgaben eine ausgezeichnete Wahl darstellt. Wen wundert es, wenn wir uns die vorherige Entwicklung und Benchmarks von DeepSeek Coder anschauen.
Seine Fähigkeit, kostengünstig entwickelt zu werden, könnte zudem die Landschaft der KI-Modelle tiefgreifend und langfristig beeinflussen. Andererseits, durch die fehlende Möglichkeit der Einbeziehung von Echtzeitdaten, wie zum Beispiel bei GPT-4 und Gemini möglich durch Echtzeit-Webzugriff, lässt DeepSeek aktuell noch hinterherhinken.
DeepSeek: Für wen lohnt es sich nun?
DeepSeek lonht sich, wenn Sie … | DeepSeek lonht sich nicht, wenn Sie … |
ein leistungsfähiges, kostengünstiges Open-Source-Modell für Mathematik, Coding oder logische Aufgaben suchen, | multimodale Features (z. B. Bild- und Spracherkennung) benötigen, |
als Entwickler eine Alternative zu GPT-4 ausprobieren möchten, | Wert auf maximale Faktenkonsistenz und breites Weltwissen legen, |
ein Unternehmen mit begrenztem Budget sind, das auf textbasierte KI setzt. | KI für kreative oder interaktive Anwendungen nutzen möchten. |
Was ist nun dran am Hype?
Zweifelsohne, DeepSeek hat das Potenzial zum „Android“ der KI-Welt zu werden – günstig, effizient und massentauglich. Besonders in China und Entwicklungsländern, wo Kosten ein relevanter Faktor sind, könnte DeepSeek eine wichtige Rolle spielen.
Allerdings gibt es auch Einschränkungen: Ohne Multimodalität und mit begrenzter globaler Präsenz könnte DeepSeek ein Nischenprodukt bleiben, das sich nicht gegen die großen Player wie GPT-4 oder Gemini durchsetzen kann. Hier können wir gespannt sein wie die Entwicklung voranschreitet.
Letztlich hängt der Nutzen von DeepSeek stark vom Einsatzzweck ab – wie bei nahezu jeder digitalen Anwendung. Nutzenden und Unternehmen mit begrenztem Budget und Fokus auf Textverarbeitung sowie Entwicklerinnen und Entwickler, die eine kostengünstige Alternative zu GPT-4 suchen, könnten von DeepSeek in der Tat profitieren.
Von daher, der Hype ist durchaus gerechtfertigt, aber nur, wenn man weiß, wofür man DeepSeek einsetzt. Während GPT-4 und Gemini die “Schweizer Taschenmesser” der KI sind, bleibt DeepSeek ein “präzises Skalpell” für spezielle Aufgaben.
Und nun?
DeepSeek hat in kurzer Zeit eine beeindruckende Entwicklung hingelegt. Seine Stärken liegen klar in Mathematik und Programmierung, wodurch es eine leistungsfähige, ressourcenschonende Alternative zu GPT-4 und anderen führenden Modellen darstellt. Besonders für technische Anwendungen, Softwareentwicklung und wissenschaftliche Berechnungen ist es eine vielversprechende Wahl.
Allerdings haben uns die Benchmarks auch Schwächen aufgezeigt: Beim Allgemeinwissen und multimodalen Anwendungen hinkt DeepSeek aktuell noch hinterher. Wer auf Bildgenerierung, Echtzeit-Webzugriff oder komplexe Sprachverständnisaufgaben angewiesen ist, findet in GPT-4 oder Google Gemini nach wie vor die stärkeren Optionen.
Am Ende des Tages hat uns DeepSeek aber noch was ganz wichtiges gezeigt. Und zwar, dass man mit wenig Ressourcen trotzdem ein ziemlich gutes KI-Modell entwickeln kann. Und das lässt doch hoffen für die Entwicklung eines guten deutschen oder europäischen KI-Modells, oder?
Testen Sie es selbst! Falls Sie neugierig sind, können Sie DeepSeek-R1 auf GitHub ausprobieren (DeepSeek-R1 auf GitHub) oder online/ als APP.
Schlagwörter: Künstliche Intelligenz, Open-Source, DeepSeek, GPT-4, Google Gemini, Maschinelles Lernen, Programmierung, Sprachverarbeitung, digitale Transformation
Diesen Beitrag zitieren: Karl, C. [Christian K. Karl]. (2025). DeepSeek – Was ist dran am Hype? [Blog-Beitrag]. 29.01.2025. BauVolution, ISSN 2942-9145. online verfügbar