Künstliche Intelligenz: Einblick in die »Gedankengänge« von DeepSeeks KI-Sprachmodell

Im Januar 2025 sorgte der KI-Chatbot R1 der chinesischen Firma DeepSeek für Aufregung: Mit erstaunlich wenigen Ressourcen für Betrieb und Training war es dem Unternehmen gelungen, ein Sprachmodell zu entwickeln, das mit denen der Techgiganten aus den USA mithalten kann. Insbesondere überzeugten R1s Fähigkeiten, mathematische Probleme zu lösen und Programmcode zu schreiben. Denn R1 ist, wie die neueren Versionen von ChatGPT von OpenAI oder Claude von Anthropic, ein »Reasoning-Modell«: ein Chatbot, der eine Eingabe teilweise mehrmals verarbeitet, bevor er das Ergebnis inklusive Lösungsweg Schritt für Schritt ausgibt. In einer nun beim Fachmagazin »Nature« veröffentlichten Studie erklären die Entwickler von DeepSeek, wie sie die KI zu einem Reasoning-Modell machten. Erstaunlicherweise war dazu keine menschliche Anleitung nötig.
Schon kurz nach der Veröffentlichung des ersten leistungsfähigen KI-Chatbots ChatGPT im Jahr 2022 fanden sich im Internet Tipps, um bessere Ausgaben zu erzielen: Man solle die KI auffordern, ihre Antwort Schritt für Schritt darzulegen. Schnell gingen auch die Entwickler dazu über, ihre Modelle durch einfache Aufforderungen automatisiert zum Schlussfolgern zu bringen. Andere versuchten hingegen, den KI-Modellen diese Fähigkeit nach dem Training durch Beispiele zu vermitteln. Die Algorithmen wurden mit von Menschen erstellten Argumentationsketten und Lösungswegen gefüttert. Allerdings sind diese Methoden nicht immer zielführend. Die Beispiele sind in ihrer Anzahl meist beschränkt und teilweise durch die Ansichten der menschlichen Entwickler verzerrt. Außerdem hindert ein solches Vorgehen die KI daran, einzigartige und völlig neue Arten von Schlussfolgerungen zu ziehen.
Um den Schritt zu umgehen, haben die DeepSeek-Entwickler einen anderen Weg gewählt: Reinforcement Learning. »Diese Methoden ähneln der Art und Weise, auf die ein Kind das Spielen eines Videospiels erlernt«, erklären die Informatiker Daphne Ippolito und Yiming Zhang von der Carnegie Mellon University in einem begleitenden »Nature«-Artikel. »Während das Kind seinen Avatar durch die Spielwelt steuert, lernt es durch Ausprobieren, dass bestimmte Handlungen wie das Sammeln von Goldmünzen Punkte einbringen, während andere (etwa das Aufeinandertreffen mit Feinden) die Punktzahl auf null zurücksetzen.« In ähnlicher Weise ließen die DeepSeek-Entwickler ihre KI verschiedene Fragestellungen im Bereich von Mathematik und Programmentwicklung beantworten. Eine Belohnungsfunktion bewertete dann die Ausgabe und gab dem KI-System so Feedback – wie einem unerfahrenen Spieler, der Goldmünzen sammelt oder auf Feinde trifft.
Der innere Monolog der KI
Auf diese Art lernte die KI eigenständig, ihre »Gedankengänge« wie in einem inneren Monolog Schritt für Schritt auszuführen – ohne dass sie dazu angewiesen wurde. »Das Team um DeepSeek-R1 konnte zeigen, dass ein Modell, das nur darauf trainiert ist, am Ende korrekte Antworten zu geben, dadurch für sich selbst ›Denkschritte‹ entwickelt, um die richtigen Antworten finden zu können«, erklärt der Informatiker Michael Franke von der Eberhard Karls Universität Tübingen.
Die Forschenden von DeepSeek betonen in ihrer Arbeit, dass die KI so in der Lage sei, sich nicht auf menschliche Folgerungen zu beschränken, sondern eigene Lösungsansätze zu entwickeln. Dabei gibt es aber auch unerwünschte Nebeneffekte: So kann es vorkommen, dass R1 während seiner Argumentation immer wieder zwischen Englisch und Chinesisch hin- und herwechselt, da das System auf diese beiden Sprachen optimiert wurde. »R1 befeuerte den globalen Wettlauf in der KI-Forschung«, sagt der Informatiker Kristian Kersting von der TU Darmstadt. »Statt immer größerer Datensätze rücken seither Gedankengänge, Rechenzeit fürs Nachdenken und clevere Trainingsmethoden in den Mittelpunkt.«
»DeepSeek-R1 hat einen neuen Trend entfacht: Heute lernen KI-Systeme zunehmend von anderen KI-Systemen statt von Menschen«Kristian Kersting, Informatiker
Dass die menschlichen Vorbilder bei der Entwicklung von KI eine zunehmend kleinere Rolle spielen, zeichnet sich immer deutlicher ab. »DeepSeek-R1 hat einen neuen Trend entfacht: Heute lernen KI-Systeme zunehmend von anderen KI-Systemen statt von Menschen«, sagt Kersting. Neben dem KI-gestützten Reinforcement Learning bereiten einige Firmen inzwischen sogar ihre Trainingsdaten durch KI-Modelle auf: Der Informatiker David Silver von Google DeepMind spricht in diesem Zusammenhang gar von einer neuen KI-Ära, bei der die Modelle künftig vollständig durch selbstständiges Ausprobieren statt durch menschliche Anleitung oder aufbereitete Trainingsdaten lernen. Allerdings legen die großen Techfirmen nicht die genauen Mechanismen ihrer Modelle offen – und erst recht nicht die Daten, mit denen sie ihre Algorithmen trainieren. Deshalb ist unklar, welche Rolle der Mensch in den neuesten Sprachmodellen genau spielt.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.