Aktualisiert am 24. September 2025
Die KI-Landschaft brodelt: Regelmäßig lesen wir neue Nachrichten von KI-Modellen, die angeblich alles Bisherige in den Schatten stellen. Einer der aktuellen Stars ist in 2025 DeepSeek, ein chinesisches KI-Unternehmen, das mit effizienten und leistungsstarken Modellen wie DeepSeek-R1 und DeepSeek-Chat auf sich aufmerksam macht. Bereits im Juni hatte ich bereits im Beitrag DeepSeek Coder: Ein neuer Meilenstein in der Open-Source KI über Entwicklungen aus diesem Unternehmen berichtet. Doch was steckt wirklich hinter dem aktuellen Hype? Und wie schlägt sich DeepSeek im Vergleich zu Giganten wie GPT-4, Google Gemini oder Claude? Schauen wir es uns an!
Warum DeepSeek in 2025 plötzlich alle begeistert
DeepSeek ist ein in Hangzhou ansässiges Start-up mit ca. 200 Mitarbeitenden, das 2023 gegründet wurde und sich auf die Entwicklung von Künstlicher Intelligenz spezialisiert hat. Das Unternehmen hat mit seinen Modellen, insbesondere dem DeepSeek-R1, Aufmerksamkeit erregt, da diese in ihrer Leistung mit führenden Modellen wie OpenAIs o1 vergleichbar sind, jedoch zu deutlich geringeren Kosten entwickelt wurden (siehe Reuters). DeepSeek-R1 ist ein Open-Source KI-Modell, das entwickelt wurde, um Aufgaben zu lösen, die logisches Denken, mathematische Problemlösung und Entscheidungsfindung in Echtzeit erfordern.
Während andere Modelle mit immer größeren Parameterzahlen (den „Gehirnzellen” der KI) protzen, setzt DeepSeek auf schlankes Design und optimierte Trainingsdaten. Das Ergebnis? Eine KI, die laut Benchmarks mit GPT-4 mithalten kann – aber schneller, kostengünstiger und ressourcenschonender ist. Ein herausragendes Merkmal von DeepSeek-R1 ist zudem seine Fähigkeit, den Denkprozess transparent darzustellen, was es Nutzerinnen und Nutzern ermöglicht, die Schlussfolgerungen des Modells besser nachzuvollziehen. Vor allem diese Tatsache fand ich bei meinen Experimenten mit R1 besonders bemerkenswert.
DeepSeek Benchmarks
DeepSeek-R1 wurde einer Reihe von Benchmarks unterzogen, um seine Fähigkeiten in den Bereichen Mathematik, Programmierung und Sprachverständnis zu evaluieren (Details siehe hier). Solche Tests bieten eine objektive Vergleichsbasis mit anderen führenden KI-Modellen wie OpenAIs GPT-4, Claude von Anthropic und Googles Gemini. Die nachfolgenden Ergebnisse verdeutlichen, wo DeepSeek-R1 besonders stark ist und in welchen Bereichen noch Verbesserungspotenzial besteht.
Mathematische Fähigkeiten
Mathematische Probleme sind eine große Herausforderung für Sprachmodelle, da sie logisches Denken, abstrakte Konzepte und oft mehrstufige Berechnungen erfordern. R1 wurde in zwei renommierten mathematischen Benchmarks getestet:
- AIME 2024 Benchmark
- Zweck: Der American Invitational Mathematics Examination (AIME) ist eine international anerkannte Prüfung, die fortgeschrittene mathematische Problemlösungsfähigkeiten testet. Dieser Test gilt als eine der härtesten Prüfungen für mathematische Problemlösungsfähigkeiten. Viele KI-Modelle scheitern an der logischen Komplexität und den ausgeklügelten Fragestellungen.
- Durchführung: KI-Modelle müssen komplexe mathematische Aufgaben lösen, die über Schulmathematik hinausgehen und tiefergehende algebraische, kombinatorische und analytische Fähigkeiten erfordern.
- Ergebnis: DeepSeek-R1 erreichte eine Pass@1-Genauigkeit von 79,8 %, was leicht über den 79,2 % von OpenAIs o1 lag. Dies deutet darauf hin, dass R1 bei mathematischen Problemstellungen präzise und zuverlässig arbeitet und damit eine eine robuste Fähigkeit zur Bearbeitung mathematischer und algorithmischer Herausforderungen zeigt. Für ein vergleichsweise junges KI-Modell ist das ein bemerkenswertes Ergebnis.
5 Gründe warum Lehrkräfte gute Prompt-Engineers wären
Die Welt des maschinellen Lernens (ML) und der …
WeiterlesenInternet of Behaviors: Verhaltensdaten in der Bauwirtschaft
Das Konzept des Internet of Behaviors (IoB) ist …
Weiterlesen- MATH-500 Benchmark
- Zweck: Der MATH-500-Test wurde entwickelt, um KI-Modelle auf hochkomplexe mathematische Aufgaben aus Bereichen wie Algebra, Geometrie und Wahrscheinlichkeit zu prüfen.
- Durchführung: Das Modell muss Aufgaben aus einer Sammlung von 500 mathematischen Problemen lösen, die schrittweises logisches Denken und präzise Berechnungen erfordern.
- Ergebnis: DeepSeek-R1 erzielte eine Genauigkeit von 97,3 %, während OpenAIs o1 96,4 % erreichte. Das zeigt, dass das Modell hervorragend darin ist, mathematische Probleme mit hoher Genauigkeit zu lösen. R1 stellt sich hier als mathematisches Kraftpaket dar und kann vor allem für wissenschaftliche Forschung, im Ingenieurwesen und in der Bildung besonders wertvoll sein.
Programmierfähigkeiten
Da KI-Modelle zunehmend für die Softwareentwicklung eingesetzt werden, sind Benchmark-Tests im Bereich des Codings entscheidend. DeepSeek-R1 wurde mit zwei gängigen Programmierbenchmarks evaluiert:
- Codeforces Benchmark
- Zweck: Codeforces ist eine der weltweit führenden Plattformen für kompetitives Programmieren. Der Test bewertet, wie gut ein Modell in der Lage ist, algorithmische Herausforderungen zu bewältigen.
- Durchführung: KI-Modelle müssen reale Wettbewerbsaufgaben aus Codeforces lösen, die eine Kombination aus Algorithmusverständnis, Datenstrukturen und Optimierungsfähigkeiten erfordern.
- Ergebnis: DeepSeek-R1 erreichte eine Platzierung im 96,3. Perzentil mit einer Bewertung von 2029, während OpenAIs o1 mit 96,6 % (Bewertung: 2061) leicht besser abschnitt. Das zeigt, dass R1 nahezu auf dem Niveau führender Programmiermodelle liegt.
- LiveCodeBench
- Zweck: Dieser Test bewertet, wie gut ein Modell in der Lage ist, realistische Programmieraufgaben zu lösen, die echte Softwareentwicklungsherausforderungen simulieren. Es wird getestet, wie gut ein Modell Code generieren, korrigieren und vervollständigen kann.
- Durchführung: KI-Modelle müssen Code-Fragmente vervollständigen, Fehler im Code identifizieren und komplexe Programmierlogik umsetzen.
- Ergebnis: R1 erzielte eine Pass@1-Genauigkeit von 65,9 %, was über den 63,4 % von OpenAIs o1 liegt. Dies zeigt, dass DeepSeek-R1 in der Lage ist, Code effizient zu generieren und anzupassen und mehr noch, dass R1 eine vielversprechende Wahl für KI-gestützte Programmierung sein könnte.
Allgemeinwissen und Sprachverständnis
Neben Mathematik und Programmierung wurden auch die Fähigkeiten von DeepSeek-R1 im Bereich des allgemeinen Sprachverständnisses und der Faktenkenntnis getestet.
- GPQA-Diamond Benchmark
- Zweck: Der General-Purpose Question Answering (GPQA)-Test misst die Fähigkeit eines Modells, auf allgemeine Wissensfragen zu antworten, die über Schulwissen hinausgehen. Kurz gesagt: Ein niedriger Wert bedeutet, dass ein Modell Schwierigkeiten hat, auf komplexe Fakten- und Wissensfragen zu antworten.
- Durchführung: Die KI erhält eine Reihe von anspruchsvollen Fragen, die logische Schlussfolgerungen und tiefergehendes Wissen aus verschiedenen Disziplinen erfordern.
- Ergebnis: DeepSeek-R1 erzielte eine Pass@1-Genauigkeit von 71,5 %, während OpenAIs o1 mit 75,7 % leicht überlegen war. Das deutet darauf hin, dass R1 ein solides Verständnis von Faktenwissen hat, jedoch noch nicht auf dem Niveau der besten Modelle liegt.
- MMLU (Measuring Massive Multitask Language Understanding)
- Zweck: Dieser Test ist ein Maßstab für das tiefgehende Sprachverständnis eines KI-Modells über mehrere Disziplinen hinweg. Er umfasst Themen aus den Geistes-, Natur- und Sozialwissenschaften.
- Durchführung: KI-Modelle müssen Multiple-Choice-Fragen aus über 50 verschiedenen Wissensgebieten beantworten, die von Geschichte und Philosophie bis hin zu Physik und Medizin reichen.
- Ergebnis: DeepSeek-R1 erreichte eine Genauigkeit von 90,8 %, während OpenAIs o1 91,8 % erreichte. Das zeigt, dass DeepSeek-R1 ein sehr gutes Sprachverständnis besitzt und mit führenden Modellen konkurrieren kann.
Die Benchmark-Tests zeigen, dass DeepSeek-R1 in mathematischen und programmierbezogenen Aufgaben herausragende Leistungen erbringt. Es übertrifft OpenAIs o1 in einigen Bereichen, insbesondere in der mathematischen Problemlösung, und liegt in anderen Bereichen wie Programmierung sogar auf Augenhöhe. Im Bereich des Allgemeinwissens und der Sprachverarbeitung zeigt DeepSeek-R1 ebenfalls starke Ergebnisse, bleibt jedoch in bestimmten Disziplinen knapp hinter OpenAIs o1 zurück. Das zu wissen ist wichtig insbesondere für Anwendungen in Chatbots, digitalen Assistenten oder journalistischen KI-Systemen, die auf akkurates Faktenwissen angewiesen sind. Da ist bei DeepSeek-R1 in der Tat noch Nachholbedarf.
Diese Ergebnisse machen aber auch deutlich, dass DeepSeek-R1 ein hochleistungsfähiges KI-Modell ist, das insbesondere für Anwendungen in Mathematik, Programmierung und komplexen Denkaufgaben eine ausgezeichnete Wahl darstellt. Wen wundert es, wenn wir uns die vorherige Entwicklung und Benchmarks von DeepSeek Coder anschauen.
Seine Fähigkeit, kostengünstig entwickelt zu werden, könnte zudem die Landschaft der KI-Modelle tiefgreifend und langfristig beeinflussen. Andererseits, durch die fehlende Möglichkeit der Einbeziehung von Echtzeitdaten, wie zum Beispiel bei GPT-4 und Gemini möglich durch Echtzeit-Webzugriff, lässt DeepSeek aktuell noch hinterherhinken.
DeepSeek in 2025: Für wen lohnt es sich nun?
| DeepSeek lonht sich, wenn Sie … | DeepSeek lonht sich nicht, wenn Sie … |
| ein leistungsfähiges, kostengünstiges Open-Source-Modell für Mathematik, Coding oder logische Aufgaben suchen, | multimodale Features (z. B. Bild- und Spracherkennung) benötigen, |
| als Entwickler eine Alternative zu GPT-4 ausprobieren möchten, | Wert auf maximale Faktenkonsistenz und breites Weltwissen legen, |
| ein Unternehmen mit begrenztem Budget sind, das auf textbasierte KI setzt. | KI für kreative oder interaktive Anwendungen nutzen möchten. |
Was ist nun dran am Hype?
Zweifelsohne, DeepSeek hat das Potenzial zum „Android” der KI-Welt zu werden – günstig, effizient und massentauglich. Besonders in China und Entwicklungsländern, wo Kosten ein relevanter Faktor sind, könnte DeepSeek eine wichtige Rolle spielen.
Allerdings gibt es auch Einschränkungen: Ohne Multimodalität und mit begrenzter globaler Präsenz könnte DeepSeek ein Nischenprodukt bleiben, das sich nicht gegen die großen Player wie GPT-4 oder Gemini durchsetzen kann. Hier können wir gespannt sein wie die Entwicklung voranschreitet.
Letztlich hängt der Nutzen von DeepSeek stark vom Einsatzzweck ab – wie bei nahezu jeder digitalen Anwendung. Nutzenden und Unternehmen mit begrenztem Budget und Fokus auf Textverarbeitung sowie Entwicklerinnen und Entwickler, die eine kostengünstige Alternative zu GPT-4 suchen, könnten von DeepSeek in der Tat profitieren.
Von daher, der Hype ist durchaus gerechtfertigt, aber nur, wenn man weiß, wofür man DeepSeek einsetzt. Während GPT-4 und Gemini die “Schweizer Taschenmesser” der KI sind, bleibt DeepSeek in 2025 ein “präzises Skalpell” für spezielle Aufgaben.
Update (August 2025) – Was ist neu:
-
DeepSeek hat am 21. August 2025 die Version V3.1 veröffentlicht. Diese bringt eine Hybrid-Architektur mit „Thinking”- und „Non-Thinking”-Modi, erzielt über 40 % bessere Werte bei Benchmarks wie SWE-bench und Terminal-bench und unterstützt gezielt heimische (chinesische) AI-Chips (siehe Wikipedia).
-
Laut VentureBeat bietet V3.1 etwa 685 Mrd. Parameter, längeren Kontext sowie Unterstützung für mehrere Tensor-Formate (BF16, F8_E4M3, F32) – und steht jetzt auf Hugging Face zum Download bereit, während die API-Nutzung noch aussteht.
-
Im Gesundheitsbereich, speziell für tertiäre Krankenhäuser in China, wird DeepSeek seit Anfang 2025 genutzt – dort stärkt es Diagnostik, Bildanalysen und klinische Entscheidungsunterstützung und optimiert Arbeitsabläufe, erfordert aber abgestimmte Regelungen zur Haftungs- und Ethik-Sicherung (siehe das Paper DeepSeek reshaping healthcare in China’s tertiary hospitals).
-
Ein Überblick aus dem Juni 2025 zeigt, dass DeepSeek-R1, unter MIT-Lizenz veröffentlicht, in Bereichen wie Mathematik, Diagnose und Pharmazie sehr leistungsfähig ist – etwa bei USMLE- oder AIME-Benchmarks -, aber auch Schwächen aufweist, etwa hinsichtlich Bias, Desinformation, Sicherheit und mehrsprachiger Nutzung (siehe das Paper DeepSeek in Healthcare: A Survey of Capabilities, Risks, and Clinical Applications of Open-Source Large Language Models).
-
In einem umfassenden Sicherheitsbericht von Cisco und der University of Pennsylvania wurde nachgewiesen, dass DeepSeek-R1 bei Tests mit 50 schädlichen HarmBench-Prompts eine 100 % Attack Success Rate erzielte, also keinen Prompt abwehren konnte – ein deutlich schlechteres Ergebnis als konkurrierende Modelle (siehe Wired, 2025).
Empfehlung: Wer sich mit DeepSeek beschäftigt, sollte die neuen Versionen und Anwendungskontexte (z. B. Gesundheitswesen) genau beobachten und dabei Chancen bezüglich Performance ebenso wie Risiken in puncto Sicherheit und Ethik abwägen.
Häufig gestellte Fragen (FAQ)
Welche Relevanz hat DeepSeek-V3.1 für die Praxis?
DeepSeek-V3.1 verbessert durch seine Hybrid-Architektur und bessere Tool-Integration deutlich die Leistungsfähigkeit von Chat- und Agent-Systemen. Zudem unterstützt es nun heimische Chipstandard-Formate, was für technologische Unabhängigkeit Chinas relevant ist.
Wie sicher ist DeepSeek-R1 in sensiblen Bereichen wie Gesundheit oder Bildung?
DeepSeek-R1 bietet starke Leistungen in Diagnostik und Code-Generierung, birgt jedoch Risiken durch mögliche Verzerrungen, Desinformation und Sicherheitslücken, darunter Prompt-Injection. Eine Nutzung in sensiblen Bereichen sollte daher nur mit ergänzenden Schutz- und Governance-Maßnahmen erfolgen.
Zuletzt aktualisiert: 31. August 2025
Und nun?
DeepSeek hat in kurzer Zeit eine beeindruckende Entwicklung hingelegt. Seine Stärken liegen klar in Mathematik und Programmierung, wodurch es eine leistungsfähige, ressourcenschonende Alternative zu GPT-4 und anderen führenden Modellen darstellt. Besonders für technische Anwendungen, Softwareentwicklung und wissenschaftliche Berechnungen ist es eine vielversprechende Wahl.
Allerdings haben uns die Benchmarks auch Schwächen aufgezeigt: Beim Allgemeinwissen und multimodalen Anwendungen hinkt DeepSeek aktuell noch hinterher. Wer auf Bildgenerierung, Echtzeit-Webzugriff oder komplexe Sprachverständnisaufgaben angewiesen ist, findet in GPT-4 oder Google Gemini nach wie vor die stärkeren Optionen.
Am Ende des Tages hat uns DeepSeek in 2025 aber noch was ganz wichtiges gezeigt. Und zwar, dass man mit wenig Ressourcen trotzdem ein ziemlich gutes KI-Modell entwickeln kann. Und das lässt doch hoffen für die Entwicklung eines guten deutschen oder europäischen KI-Modells, oder?
Testen Sie es selbst! Falls Sie neugierig sind, können Sie DeepSeek-R1 auf GitHub ausprobieren (DeepSeek-R1 auf GitHub) oder online/ als APP.
Schlagwörter: Künstliche Intelligenz, Open-Source, DeepSeek, GPT-4, Google Gemini, Maschinelles Lernen, Programmierung, Sprachverarbeitung, digitale Transformation
Diesen Beitrag zitieren: Karl, C. [Christian K. Karl]. (2025). DeepSeek – Was ist dran am Hype? [Journal-Beitrag]. 29.01.2025. BauVolution, ISSN 2942-9145. online verfügbar
Häufig gestellte Fragen (FAQ)
DeepSeek ist ein leistungsstarkes, quelloffenes KI-Modell aus China, das auf Large Language Models (LLMs) basiert. Es soll mit Modellen wie GPT-4 konkurrieren und kombiniert hohe Sprachkompetenz mit der Möglichkeit zur lokalen Nutzung – ideal für datenschutzsensible Anwendungen.
DeepSeek erregt Aufmerksamkeit, weil es als Open-Source-Modell vergleichbare Leistungen zu kommerziellen KI-Angeboten bietet. Es steht für technologische Souveränität, Transparenz und Anpassbarkeit – besonders interessant für Forschung, Bildung und Industrie.
DeepSeek punktet mit Open-Source-Lizenz, lokalem Betrieb ohne Cloud-Zwang, hoher Sprachkompetenz (auch auf Deutsch) und geringerem Ressourcenverbrauch. Damit ist es eine attraktive Alternative zu Closed-Source-KIs mit proprietären Abhängigkeiten.
Ja, erste Anwendungen zeigen vielversprechende Ergebnisse im Einsatz von DeepSeek für Textgenerierung, Übersetzung, Wissensmanagement und Code-Erstellung. Auch in der Bauwirtschaft wird das Modell für interne Assistenten und Datenschutzkonzepte getestet.
DeepSeek eignet sich besonders für Entwicklerinnen und Entwickler, Unternehmen mit sensiblen Daten, Bildungseinrichtungen sowie alle, die auf transparente und anpassbare KI-Systeme setzen wollen – ohne Abhängigkeit von US-Cloud-Anbietern.

Dr.-Ing. Christian K. Karl ist Bauingenieur, Fachdidaktiker und Experte für die digitale Transformation in der Bau- und Immobilienwirtschaft. Er leitet die Fachdidaktik Bautechnik an der Universität Duisburg-Essen und forscht zu BIM, Künstlicher Intelligenz, Future Skills und Resilienzbildung in der Bau- und Einsatzpraxis. Zudem ist er Vorsitzender des Richtliniengremius VDI/bS 2552 Blatt 8 zur BIM-Qualifizierung. Neben seiner akademischen Tätigkeit engagiert er sich ehrenamtlich in der DLRG sowie als Berater und Coach für digitale Transformationsprozesse. Auf BauVolution.de verbindet er wissenschaftliche Expertise mit praxisnahen Einblicken. Abseits der Forschung ist er Familienvater, Filmenthusiast, Taucher, Fallschirmspringer und Motorsport-Fan.
BauVolution bezeichnet die strukturelle Transformation der Bau- und Immobilienwirtschaft zu einem daten- und modellbasierten sozio-technischen System.
Der Begriff wurde von Dr.-Ing. Christian K. Karl geprägt und erstmals auf BauVolution.de systematisch beschrieben.
Vollständige Definition lesen →
von 



