Overfitting vermeiden: Wie lernen KI-Sprachmodelle?

ChatGPT, Claude und Co: Rätsel um KI-Sprachmodelle gelöst

Wie lernen große Sprachmodelle wie ChatGPT und Claude? Forschende haben nun eine Erklärung gefunden, die aus der theoretischen Physik stammt.

von Manon Bischoff

Eine 3D-Darstellung eines futuristischen, bandartigen Objekts, das in Schleifen auf einer strukturierten Oberfläche liegt. Das Band ist transparent und zeigt leuchtende, digitale Muster in Pink- und Grüntönen. Die Darstellung vermittelt ein Gefühl von Technologie und Innovation. — © Eugene Mymrin / Getty Images / Moment (Ausschnitt)
Eigentlich müssten Sprachmodelle mit wachsender Größe schlechter werden. Physiker haben nun eine mögliche Erklärung dafür, weshalb das nicht so ist.

»Es ist eines der größten Mysterien des Deep Learnings«, sagt der Physiker Alexander Atanasov von der Harvard University. Je größer die Sprachmodelle, desto besser scheinen sie – obwohl die Theorie etwas anderes vorhersagt. Denn eigentlich sollten neuronale Netze, auf denen Sprachmodelle aufbauen, ihre Vorhersagekraft verlieren, wenn sie zu groß werden. Warum das bei ChatGPT, Claude und Co nicht der Fall ist, stellt die Fachwelt seit ihrem Erscheinen vor ein Rätsel.

Atanasov hat gemeinsam mit seinen Kollegen Jacob Zavatone-Veth und Cengiz Pehlevan eine mögliche Erklärung gefunden, die sie im »Journal of Statistical Mechanics: Theory and Experiment« veröffentlicht haben. Demnach scheint ein physikalischer Mechanismus das erfolgreiche Lernen großer Sprachmodelle zu erklären.

Da es unmöglich ist, die gigantischen heutigen Sprachmodelle mit Milliarden von Parametern im Detail zu analysieren, haben die Physiker für ihre Arbeit ein vereinfachtes und kleineres neuronales Netz herangezogen. In diesem konnten sie genau nachvollziehen, welche Prozesse vonstattengehen. »Deep-Learning-Modelle sind keine Algorithmen, die von Hand als Regelwerk entwickelt werden«, erklärt Atanasov. »Sie ähneln eher einem Organismus, der im Labor gezüchtet wird.« Denn die KI-Modelle passen während des Trainings ihren Algorithmus selbstständig an, um das bestmögliche Ergebnis auf Basis der Trainingsdaten zu liefern.

In den 2010er-Jahren, als neuronale Netzwerke ihren Durchbruch in der Informatik erlebten, machte sich jedoch eine Schwäche dieses KI-Ansatzes bemerkbar: Overfitting (deutsch: Überanpassung). Wenn das Modell zu viele freie Parameter hat, die es selbstständig anpassen kann, dann werden die Ergebnisse plötzlich deutlich schlechter. Denn das neuronale Netz fokussiert sich in diesem Fall auf zu viele unwichtige Details der Trainingsdaten, statt nach einem übergeordneten Muster zu suchen.

Überempfindliche Computer | Beim maschinellen Lernen muss man aufpassen, dass ein Computer die Daten nicht zu ernst nimmt. Soll eine KI etwa Hunde- (rot) und Katzenbilder (blau) voneinander unterscheiden, wird sie die Beispieldaten nach selbst gewählten Parametern einteilen. Die beiden Kurven stehen dann für zwei mögliche Modelle, um Katzen und Hunde zu differenzieren. Das grüne Modell folgt den Daten gut, doch es ist extrem kompliziert und hängt stark von den gewählten Beispielen ab. Die Wahrscheinlichkeit, dass der Algorithmus einen neuen Datenpunkt falsch einordnet, ist daher hoch. Dieses Phänomen wird als Überanpassung (Overfitting) bezeichnet. Die schwarze Kurve entspricht dagegen einem sinnvollen Modell, selbst wenn es ein paar Daten falsch zuordnet.

Das ist bei großen Sprachmodellen aber erstaunlicherweise anders. Je größer sie sind, desto besser scheinen die Resultate. Um das zu verstehen, haben die Forscher ihr vereinfachtes Modell beim Training beobachtet. »Das Modell, das wir untersuchen, ist einfach genug, um mathematisch gelöst zu werden«, erklärt Zavatone-Veth, Mitautor der Studie. »Gleichzeitig bildet es mehrere der wichtigsten Phänomene nach, die in großen neuronalen Netzen zu beobachten sind.« Und tatsächlich konnten die Forscher einen Prozess ausmachen, der das Overfitting verhindert.

Dieser Prozess ähnelt jenem der Renormierung, der in der statistischen Physik auftaucht. Die Renormierungstheorie erklärt unter anderem, warum komplexe Systeme in der Physik im großen Maßstab oft ein relativ einfaches Verhalten zeigen – warum sich etwa Abermilliarden Atome zu einem geordneten Festkörper zusammenfinden. In diesen hochdimensionalen Systemen treten stets kleinere, zufällige Schwankungen auf, sogenannte statistische Fluktuationen. Anstatt für Chaos zu sorgen, lassen sich diese Schwankungen durch die Renormierungstheorie effektiv zu einer kleinen Anzahl von Parametern zusammenfassen, welche die Eigenschaften des Gesamtsystems prägen. So destabilisieren diese Fluktuationen das Gesamtsystem also nicht, sondern tragen zum geordneten Verhalten der komplexen Systeme bei.

Gleiches beobachteten die Physiker in ihrem vereinfachten neuronalen Netz. Sie konnten zeigen, dass die Fluktuationen in den Trainingsdaten das Lernen tatsächlich stabilisierten und so ein Overfitting vermieden wurde. Die Renormierungstheorie könnte daher auch erklären, wie die großen Sprachmodelle lernen, erklären die Harvard-Physiker in ihrer Studie.

ChatGPT, Claude und Co: Rätsel um KI-Sprachmodelle gelöst

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Die neue KI-Ära: »Wir können nur erahnen, was genau vor sich geht«

KI-Agenten: Wenn Sprachmodelle handeln lernen

Sprachmodelle: Ist bei einer KI größer immer besser?

Themenkanäle

Informationstechnologie

Der digitale Mensch

Sprachmodelle

SponsoredPartnerinhalte