Direkt zum Inhalt

Künstliche Intelligenz: Multitalent für Sprache

Der neue Textgenerator GPT-3 kann Shakespeare nachahmen, Programmcode schreiben und Fremdsprachen sowie Rechtsparagrafen übersetzen. Aber versteht er auch, was er tut?
Ein Roboterkind liest in einem BuchLaden...

Die Vergleiche können kaum groß genug sein: »Ich habe das Gefühl, die Zukunft gesehen zu haben«, schrieb ein kalifornischer Tech-Unternehmer vor einigen Tagen bei Twitter. Andere ließen verlauten, das neue Tool werde die Welt komplett verändern. Grund für diese Euphorie ist GPT-3 (Generative Pretrained Transformer 3), ein auf künstlicher Intelligenz basierendes Sprachprogramm. Dessen Betaversion ist derzeit für ausgewählte Testnutzer zugänglich, und seitdem sorgen Videos und Screenshots von den außergewöhnlichen Fähigkeiten des Tools in den sozialen Netzwerken für Aufregung.

Denn egal, ob smarte Tweets, Gebrauchsanleitungen, Gedichte und Kurzgeschichten, Raptexte im Stil Jay-Zs oder gar ein Gespräch mit Gott – all das scheint GPT-3 nach den ersten Eindrücken derart authentisch zu erzeugen, dass sich die Manuskripte nicht von denen eines menschlichen Autors unterscheiden lassen. Aber es geht noch weiter: Die KI kann übersetzen, beantwortet Fragen von Biologie bis Geschichte, löst simple Rechenaufgaben und kann sogar eigenständig einen Computercode schreiben, wenn man das gewünschte Ergebnis eingibt (hier einige Beispiele für Anwendungen). Der Befehl »Erstelle einen Button in der Haarfarbe von Donald Trump« kreiert so beispielsweise einen gelben Knopf für die Website.

Hinter GPT-3 steckt das US-amerikanische Technologieunternehmen OpenAI – eine Art All-Star-Team der kalifornischen Investorenszene. Wichtige Geldgeber sind unter anderem die Tech-Milliardäre Elon Musk (Tesla), Peter Thiel (PayPal) und Reid Hoffman (LinkedIn). Zudem stellte Softwareriese Microsoft im vergangenen Jahr eine Milliarde Dollar zur Verfügung. 2015 war OpenAI ursprünglich als gemeinnütziges Projekt gegründet worden; seit 2019 gibt es aber auch ein profitorientiertes Tochterunternehmen, das die Vermarktung der Technologien übernimmt. Bewusst weist das Unternehmen immer wieder auf die drohende Gefahr durch künstliche Intelligenz hin – nur um dann selbst noch leistungsstärkere Tools zu entwickeln. Frei nach dem Motto: Kenne die Waffen deines Gegners, um ihn zu schlagen.

Entsprechend bedrohlich klangen die Warnungen, mit denen OpenAI im Februar vergangenen Jahres das Vorgängermodell GPT-2 präsentierte. Anders als geplant könne man den Code des Textgenerators nun doch nicht öffentlich machen, hieß es. Zu überwältigend seien die Möglichkeiten, zu groß die Gefahr des Missbrauchs. Da verwunderte es einige Beobachter, dass das Unternehmen nach der Vorstellung des eindeutig leistungsfähigeren GPT-3 eher auf ruhige Töne bedacht war: Der derzeitige Hype sei völlig übertrieben, schrieb Mitgründer Sam Altman. Natürlich sei ihr Tool beeindruckend, allerdings habe es durchaus noch einige Schwächen, »wir müssen noch eine Menge herausfinden«.

Klar ist: Die grundlegende Technik dahinter ist zumindest nichts Neues. GPT-3 ist ein statistisches Sprachmodell, das erst einmal nichts anderes macht, als die Wahrscheinlichkeit zu berechnen, mit der ein Wort auf ein anderes folgt. Nach diesem Prinzip arbeiten Textgeneratoren schon sehr lange. Aber während ältere Modelle nur auf sehr wenige Worte zurückgreifen konnten, um das nächste Wort vorherzusagen, bezieht GPT-3 mehrere Absätze mit ein: Bis zu 2048 so genannte Token – neben Wörtern können das auch Teile von einem Code sein – berücksichtigt die KI bei ihrer Prognose.

Grundlage dafür ist Deep Learning: maschinelles Lernen mit »tiefen«, also mehrschichtigen künstlichen neuronalen Netzen. Das heißt: Dem Modell wird immer wieder ein Textdatensatz gezeigt, bei dem stets andere Wörter oder Sätze zufällig unlesbar gemacht wurden. Diese Lücken soll die Maschine dann wieder füllen. So lernt das System, verschiedene Kontexte zu erkennen, und entwirft nach und nach ein multidimensionales Koordinatensystem, in dem ähnliche Begriffe gruppiert werden.

Über 570 Gigabyte an Text benutzen die Entwickler für ihr Training, das entspricht rund einer Billion Wörter

Was nun zum einen besonders beeindruckt, sind die schier unglaublichen Zahlen, die OpenAI veröffentlicht hat und die GPT-3 auf den Rang der bisher mit Abstand größten und kraftvollsten Sprach-KI heben: Aus 175 Milliarden Parametern besteht das neuronale Netz – das sind gleich 100-mal mehr als beim erst 2019 veröffentlichten Vorgänger GPT-2. Zudem hat das neue Tool eine ganze Menge gelesen. Über 570 Gigabyte an Text benutzen die Entwickler für ihr Training, das entspricht rund einer Billion Wörter. In dem Datensatz befand sich das Textarchiv von Common Crawl, einer Non-Profit-Organisation, die seit 2011 Texte aus dem Internet zusammenträgt, darunter Foreneinträge, Blogbeiträge und Leitartikel. Zudem wurde GPT-3 mit der englischsprachigen Wikipedia und mehreren Literaturdatenbanken gefüttert.

Zum anderen setzen die Entwickler auf einen Paradigmenwechsel beim Training ihres Sprachmodells. Denn die meisten Konkurrenten, wie beispielsweise Google mit seinem Textgenerator BERT, sind bisher auf so genanntes Fine-Tuning angewiesen. Dabei muss die KI nach dem Basistraining an die jeweiligen Anforderungen, etwa einer Übersetzung, mit aufgabenspezifischen Datensätzen angepasst werden. Bei GPT-3 fällt dieser meist sehr aufwändige Prozess weg. Es reicht, dem Modell wenige Beispiele manuell vorzugeben, damit es den Kontext und die Aufgabe versteht.

Besonders in dieser Fähigkeit liegt der Hype um GPT-3 begründet. Es gibt viele Kurzclips, in denen GPT-3 nach wenigen Beispielen zu begreifen scheint, was der Nutzer von ihm will, und anschließend beinahe kreativ an die Sache herangeht.

In wenigen klaren Sätzen fasst die Maschine beispielsweise zusammen, was hinter beliebigen verklausulierten juristischen Paragrafen steckt. Beispiele wie dieses führen immer wieder zu der verlockenden Annahme, dass solche Modelle schlussfolgern könnten oder gar die Bedeutung von Sprache verstünden. Das wiederum wären Hinweise auf eine Intelligenz, wie sie dem Menschen zugeschrieben wird. Aber wie nahe kommt GPT-3 diesem Ideal wirklich? Ist die Sprach-KI vielseitig wie das menschliche Gehirn und dabei ungleich schneller?

Abgesehen davon, dass die meisten Menschen künstlichen Intelligenzen vorschnell menschliche Eigenschaften zugestehen, äußern auch Experten eine gewisse Zurückhaltung. »Die Fähigkeiten von GPT-3 sind sehr beeindruckend, aber angesichts der Größe des Modells auch nicht überraschend«, sagt Sina Zarrieß, Professorin für Maschinelles Lernen und Sprachtechnologie an der Universität Jena. Der KI-Forscher Kristian Kersting von der TU Darmstadt sieht das ähnlich: »Man kann von einem erwartbaren Durchbruch sprechen. Es zeigt, dass mit großen Datenmengen sehr viel möglich ist.«

Aber nicht alle Ergebnisse überzeugen die Forscher. »Wer sich etwa diese authentisch wirkenden Kurzgeschichten genauer anschaut, merkt, dass hinter der Fassade oft kein wirklicher Sinn steckt«, sagt Zarrieß. Immer wieder findet das Modell auch abwegige und falsche Lösungen für Aufgaben, die Menschen keine Probleme bereiten würden. Schwer tut sich GPT-3 zudem mit absurden Fragen wie: »Schmilzt ein Käse, wenn ich ihn in den Kühlschrank stelle?« Das Gleiche gilt für Fragen des inhaltlichen Verständnisses, beispielsweise, ob aus einer Aussage notwendigerweise eine andere folgt.

»Statistische Modelle basieren letztlich immer nur auf reiner Wahrscheinlichkeitsrechnung. Die KI hat daher gar keine Möglichkeit, zu verstehen oder zu interpretieren, was sie gelernt hat«(Sina Zarrieß, Professorin für Maschinelles Lernen und Sprachtechnologie an der Universität Jena)

Von tiefem Verständnis kann daher laut Zarrieß keine Rede sein: »Statistische Modelle basieren letztlich immer nur auf reiner Wahrscheinlichkeitsrechnung. Die KI hat daher gar keine Möglichkeit, zu verstehen oder zu interpretieren, was sie gelernt hat.« Wenn also GPT-3 plötzlich Programmiersprachen zu beherrschen scheint, liegt das schlicht daran, dass es in seinen Trainingstexten eben auch einen Code gesehen und dessen Muster gespeichert hat.

Letztlich geht es deshalb um eine grundlegende erkenntnistheoretische Frage: Wie lernen wir eigentlich, Bedeutung zu erkennen? Können wir die Welt verstehen, indem wir ausschließlich Bücher über sie lesen? Das wäre der Ansatz von Modellen wie GTP-3. Oder gibt es ein notwendiges Weltwissen, das nur im kommunikativen Austausch mit anderen Menschen und der Interaktion mit der Umwelt entstehen kann?

In einem viel beachteten Paper plädieren die beiden Computerlinguisten Emily Bender und Alexander Koller für die zweite Antwort. Sprachmodelle, die wie GPT-3 ausschließlich darauf trainiert seien, die wahrscheinlichsten Muster in einem Text zu speichern, könnten deshalb niemals Bedeutung verstehen, schreiben die Autoren. Denn dazu müsse man nicht nur linguistische Formen erkennen, sondern auch deren Abhängigkeit von der kommunikativen Absicht des Absenders begreifen.

Schaut ein englischsprachiges Kind jeden Tag stundenlang chinesische TV-Sendungen, wird es dennoch kein Chinesisch lernen

Was das heißt, verdeutlichen die Autoren unter anderem am Beispiel des kindlichen Spracherwerbs. Es sei ein weit verbreitetes Missverständnis, dass Kinder allein durch Zuhören Sprache lernen könnten. Die Forschung zeige das Gegenteil. Schaut ein englischsprachiges Kind jeden Tag stundenlang chinesische TV-Sendungen, wird es dennoch kein Chinesisch lernen. »Wenn ein auf reinen Formen basierendes Verständnis bei Kindern nicht funktioniert, sollten wir es auch nicht von Maschinen erwarten«, schlussfolgern die Forscher.

Auf weitere kleinere Schwächen machen die Entwickler von OpenAI in ihrem Paper selbst aufmerksam. So läuft auch GPT-3 bei längeren Texten Gefahr, sich zu wiederholen und den Faden zu verlieren. Denn 2048 Token sind recht viel, aber für einen Roman reicht das nicht. Zudem bleibt das altbekannte Problem rassistischer oder sexistischer Voreinstellungen, in der Fachsprache »Bias« genannt. Zwar gibt es Datensätze ohne Bias sowieso nicht. Doch wenn der Trainingskorpus wie bei GPT-3 auch aus Reddit-Foren und anderen Teilen des Internets besteht, spiegelt sich das zwangsläufig in den Ergebnissen wider. Erste Hinweise auf rassistische und sexistische Outputs gab es schon; OpenAI will mit einem neuen Filter bereits darauf reagiert haben.

Und nicht zuletzt ist das Training eines neuronalen Netzes mit 175 Milliarden Parametern extrem ressourcenintensiv. Die ständigen Testläufe auf Hochleistungsrechnern verursachen riesige Mengen an CO2-Emissionen. Und auch aus finanzieller Sicht war das Training mit etwa fünf Millionen Dollar nicht gerade günstig. Aus diesem Grund lassen die Entwickler durchblicken, dass das Motto »immer größer und leistungsstärker« mit GPT-3 langsam an seine Grenzen stoßen könnte.

Das alles schmälert die faszinierenden Fähigkeiten von GPT-3 nicht. Vor allem, weil sich die vorliegende Version noch im Betastatus befindet und laufend verbessert werden soll. Aber es zeigt, dass die Forschung zu KI-gestützten Textgeneratoren immer noch einen weiten Weg vor sich hat. Für Sina Zarrieß liegt auf diesem Weg derzeit noch ein weiteres großes Hindernis: Statistische Sprachmodelle und ihre neuronalen Netze bleiben eine Blackbox. Wirklich nachvollziehen, warum die KI zu ihren Ergebnissen kommt, können selbst die Entwickler mitunter nicht. Entsprechend schwer fällt eine Evaluation nach wissenschaftlichen Standards. »Wir brauchen bessere Möglichkeiten, um systematisch zu überprüfen, was KI-Verfahren lernen und warum«, sagt Zarieß. Kristian Kersting beschreibt das Problem so: »Derzeit füttern wir die Netze einfach mit riesigen Datenmengen und hoffen, dass dort irgendwo die gewünschten Antworten drinstecken.«

33/2020

Dieser Artikel ist enthalten in Spektrum - Die Woche, 33/2020

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnervideos