Künstliche Intelligenz: Die Entwicklung der DeepSeek-KI war deutlich teurer als berichtet

Am 27. Januar 2025 sorgte ein KI-Chatbot aus China für einen Schock an der Börse: Die Aktien von Chipherstellern und großen Tech-Firmen stürzten ab. Sie verloren innerhalb von 24 Stunden mehr als 580 Milliarden US-Dollar an Wert. Grund dafür ist, dass dem chinesischen Unternehmen DeepSeek etwas gelungen war, mit dem offenbar niemand so schnell gerechnet hatte: mit vergleichsweise wenigen Ressourcen ein leistungsvolles KI-Modell zu entwickeln, das mit den Marktführern von OpenAI oder Anthropic mithalten kann. Doch nun werden immer mehr Stimmen laut, die den Hype kritisieren. Ist damit das Wunder um DeepSeek entzaubert?
Anders als es in manchen Medienberichten anklingt, sind die Ressourcen von DeepSeek alles andere als beschränkt. Die Firma entstand im Mai 2023 aus dem chinesischen Unternehmen High Flyer, das zwei Jahre zuvor – kurz vor den Exportbeschränkungen von US-Computerchips nach China – 10 000 leistungsfähige Grafikkarten bei Nvidia bestellt hatte. Schätzungen zufolge könnte die Firma insgesamt um die 50 000 Grafikkarten besitzen, darunter auch leistungsstarke Modelle, die in China wegen der Handelsbeschränkungen nicht mehr offiziell zu erwerben sind. Damit könnte die chinesische Firma definitiv mit den großen US-Tech-Firmen mithalten.
Die DeepSeek-Entwicklerinnen und -Entwickler geben an, ihr KI-Sprachmodell V3 mit rund 2000 Grafikkarten trainiert zu haben. Das entspricht etwa einem Zehntel der Ressourcen, die OpenAI zum Training von GPT-4 benötigte. »Aber auch 2000 Grafikkarten sind nicht wenig«, sagt der Informatiker Kristian Kersting von der TU Darmstadt, Mitgründer des KI-Rechenzentrums HessianAI. »Bei HessianAI stehen zwei Supercomputer, die jeweils in der Top-500-Liste der weltweit leistungsfähigsten Maschinen sind, und trotz dieser leistungsvollen Infrastruktur könnten wir die DeepSeek-Modelle an unserem Standort nicht entwickeln.« In Deutschland wäre höchstens das Rechenzentrum Jülich, das bald auf 24 000 Grafikkarten zurückgreifen kann, in der Lage, solche Berechnungen auszuführen.
»Uns fehlen zurzeit die Grafikkarten für Tests«Andreas Hotho, Informatiker
Das macht es für deutsche und europäische Fachleute schwer, die Behauptungen von DeepSeek nachzuprüfen. So versucht das Team um den Informatiker Andreas Hotho von der Julius-Maximilians-Universität in Würzburg einen vergleichbaren Code auf das Sprachmodell LLäMmlein anzuwenden, um zu prüfen, ob sich der Ansatz übertragen lässt. »Allerdings fehlen uns zurzeit Grafikkarten für Tests«, sagt Hotho. Dennoch können sich Experten und Expertinnen wie Hotho und Kersting vorstellen, dass die von DeepSeek vorgebrachten Innovationen tatsächlich eine ressourcenärmere Entwicklung von Sprachmodellen ermöglichen könnten.
Die versteckten Kosten eines KI-Modells
So ein Projekt kostet jedoch deutlich mehr als die von vielen Medien berichteten sechs Millionen US-Dollar – eine Summe, die die DeepSeek-Fachleute selbst in ihrer Veröffentlichung nannten. Wie die chinesischen Forschenden aber ebenfalls betonen, sei bei diesen Kosten nicht die ganze Vorarbeit eingerechnet, die zur Entwicklung des Modells nötig gewesen sei. »Die angegebenen Gelder wurden ja nur für einen Durchlauf eingesetzt«, sagt auch Hotho. »Nötige und umfangreiche Testläufe, um zum Beispiel die Parameter des Sprachmodells zu optimieren, kommen sicherlich noch dazu und sind nicht zu vernachlässigen.« Zum Beispiel erklärte der Geschäftsführer von DeepSeek, Liang Wenfeng, in einem Interview, dass eine der technischen Neuerungen mehrere Monate Entwicklungszeit erfordert habe. Solche Prozesse sind häufig kostspielig und erfordern viele Ressourcen, wurden bei den genannten Kosten aber nicht berücksichtigt.
»Das ist so, als würde man nur auf einen bestimmten Teil einer Materialliste für ein Produkt verweisen und ihm die gesamten Kosten zuschreiben«, heißt es in einem Artikel von Semianalysis. »Die Kosten für das Pretraining sind bloß ein sehr kleiner Teil der Gesamtkosten.« Der Geschäftsführer von Anthropic, Dario Amodei, gibt auf seinem Blog beispielsweise an, dass auch seine Firma vor einem Jahr »lediglich ein paar zehn Millionen US-Dollar« für das reine Training des Sprachmodells Claude 3.5 ausgegeben habe. Zusätzlich müsse man aber beachten, mahnt Dario an, dass sich die Kosten im schnelllebigen KI-Bereich schnell reduzieren. »Die DeepSeek-KI ist kein einzigartiger Durchbruch (…); sondern es war ein erwartbares Ereignis (…)«, schreibt Dario. »Der Unterschied besteht darin, dass das Unternehmen, das als erstes die erwarteten Kostensenkungen nachgewiesen hat, ein chinesisches Unternehmen war.«
Dennoch betont Dario, die softwareseitigen Innovationen von DeepSeek seien beeindruckend. Unter anderem kann das chinesische Sprachmodell zwischen einfachen und komplexen Fragestellungen unterscheiden und so den Rechenaufwand für die Antwort flexibel anpassen: Einfache Fragen erfordern somit wenig Ressourcen, während das System mehr Aufwand in komplizierte Inhalte steckt. Zudem werden die Daten effizienter verarbeitet als in vielen anderen Ansätzen.
»Berichte, dass die KI-Modelle plötzlich umsonst trainiert werden können, sind übertrieben«Jonas Geiping, Informatiker
Mit diesen und weiteren Verbesserungen ist es DeepSeek gelungen, die benötigten Ressourcen für die KI-Entwicklung zu senken. »Berichte, dass die KI-Modelle plötzlich umsonst trainiert werden können, sind übertrieben«, sagt der Informatiker Jonas Geiping vom Max-Planck-Institut für Intelligente Systeme in Tübingen. »Eher ist das Modell ein Beweis, dass nicht nur die US-Amerikaner in der Lage sind, die besten KI-Modelle zu trainieren und zu verbessern.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.