Künstliche Intelligenz scheint besser in Sprachtests als der Mensch

Sprachbegabte Maschinen: Versteht der Computer uns jetzt wirklich?

2019 gelang KI-Forschern ein verblüffender Durchbruch: Seitdem übertreffen ihre Computer den Menschen bei Lesetests. Aber können diese Systeme tatsächlich Sätze verstehen?

Von John Pavlus

Ein Roboter und ein Mensch stehen sich gegenüber. — © Devrimb / Getty Images / iStock (Ausschnitt)

Als Sam Bowman, Computerlinguist an der New York University, im Herbst 2017 die mageren Ergebnisse seiner eigenen Disziplin analysierte, trieb ihn vor allem eine Erkenntnis um: Nicht nur waren die Rechner weit davon entfernt, einen geschriebenen Text annähernd so zu verstehen wie ein Mensch; was fehlte, war außerdem ein brauchbarer Test für ihre Fähigkeiten. Eine Methode, mit der man unterschiedliche Ansätze vergleichen könnte – eine Benchmark, wie der Fachmann sagt. Kurz darauf hatte Bowman einen solchen Test entwickelt.

Im April 2018 veröffentlichte er gemeinsam mit Kollegen von der University of Washington und DeepMind, Googles eigener KI-Forschungsfirma, einen Fachartikel, in dem sie neun Aufgaben vorstellten. Anhand dieser sollte sich zeigen, ob ein Computer in der Lage ist, den Inhalt eines Textes zu verstehen. GLUE (General Language Understanding Evaluation, zu Deutsch etwa: Beurteilung des allgemeinen Sprachverständnisses) war so gestaltet, dass er »ziemlich genau all das abfragte, was nach Meinung der Forschergemeinde den Computer vor spannende Herausforderungen stellt«, erklärt Bowman. Für Menschen seien die Aufgaben allesamt »gut machbar«. Beispielsweise verlangt eine Unteraufgabe anzugeben, ob ein Satz wahr oder falsch ist, wobei der vorhergehende Satz das nötige Hintergrundwissen liefert. Wenn Sie aus dem Satz »Präsident Trump landete im Irak für einen sechstägigen Staatsbesuch« folgern können, dass der Satz »Präsident Trump ist auf Auslandsbesuch« wahr ist, haben Sie soeben bestanden!

Die Maschinen versagten reihenweise. Sogar nach allen Regeln der Kunst gebaute künstliche neuronale Netze kamen mit 69 von 100 Punkten nicht über eine Vier plus in Schulnoten hinaus. Das überraschte weder Bowman noch seine Koautoren. Zwar hatten neuronale Netzwerke – lernfähige Programme, deren Funktionsweise sich vage an der des Gehirns orientiert – schon bewiesen, dass sie für einige Aspekte der maschinellen Sprachverarbeitung durchaus taugen. Doch das Maximum galt als erreicht. Die Netze, so glaubten Experten damals, könnten einfach nichts Wesentliches über Sprache und Bedeutung lernen. Eine Annahme, die die schlechten GLUE-Ergebnisse noch einmal deutlich unterstrichen.

Maschinen verbessern sich rapide

Doch die Einschätzung sollte nicht lange Bestand haben. Schon im Oktober 2018 stellte Google eine Methode vor, die unter dem Namen BERT bekannt wurde, kurz für Bidirectional Encoder Representations from Transformers. Sein GLUE-Score: 80,5. Gerade einmal sechs Monate existierte der Test, da hatten sich die Maschinen auf eine Zwei minus verbessert.

Die Fachwelt war baff, erzählt Bowman. »BERT kam bei vielen Tasks auf Punktzahlen, bei denen wir dachten: Besser geht das eigentlich gar nicht.« Mit einem Mal wurde es relevant zu wissen, wie gut eigentlich Menschen bei diesem Test abschneiden. Im Februar 2019 ergänzten Bowman und ein Doktorand den GLUE-Test um die entsprechenden Vergleichswerte. Und wieder dauerte es nur wenige Monate, bis ein System, diesmal von Microsoft, die Grenze überwand. Inzwischen ist der Durchschnittsmensch abgeschlagen: Bei Redaktionsschluss rangierte er mit Platz neun gerade noch unter den Top Ten der von zahlreichen BERT-Systemen und ihren Varianten bevölkerten Bestenliste.

Aber lernen diese Systeme wirklich, unsere Sprache zu verstehen? Oder werden sie einfach besser darin, unsere Tests zu meistern – und sei es durch Tricks? Alternative Evaluationsverfahren zeichnen ein ganz anderes Bild von den sprachverarbeitenden Computern, das viel eher an den »Klugen Hans« erinnert: So hieß das Pferd, das Anfang des 20. Jahrhunderts mit seinen vermeintlichen Rechenkünsten Aufsehen erregte, tatsächlich aber nur unbewussten Anweisungen seines Halters folgte.

Es gebe da einen Graubereich, sagt Bowman. Man könne sich dem Problem Sprache mit Methoden nähern, die im Grunde recht trivial und uninteressant seien. Oder auf echte künstliche Intelligenz (KI) setzen. »Und irgendwo in der Mitte stehen wir.«

Verstehen Maschinen uns wirklich?

Der Vergleich mit dem berühmten Gedankenexperiment zum »chinesischen Zimmer« des US-amerikanischen Philosophen John Searle drängt sich auf: Hier sitzt eine Person, die des Chinesischen nicht mächtig ist, in einem abgeschlossenen Raum voller Bücher mit Anweisungen. Die darin verzeichneten Regeln sollen laut Searle so gestaltet sein, dass sich jede beliebige auf Chinesisch verfasste Mitteilung in eine passende Antwort überführen lässt. Nun schiebt eine weitere Person chinesisch geschriebene Fragen unter der Tür durch, woraufhin der Mensch im Zimmer seine Regelbücher konsultiert und eine in perfektem Chinesisch formulierte Antwort an den Fragesteller zurückgibt. Das Gedankenexperiment wirft vor allem eine Frage auf: Kann man als Außenstehender überhaupt erkennen, ob eine Person (oder ein Computersystem) ein echtes Verständnis von Sprache hat?

Nun wären viele KI-Forscher bereits mit einer gelungenen Simulation echten Sprachverständnisses mehr als zufrieden. Ein Problem dabei ist, dass es in der realen Welt keine perfekten Regelbücher gibt. Natürliche Sprache ist viel zu komplex und unvorhersehbar, als dass sie sich auf ein fixes Set von Anweisungen reduzieren ließe. Man denke an den oft wiederholten Beispielsatz des Linguisten Noam Chomsky »Farblose grüne Ideen schlafen wütend«. Aus Sicht der Syntax, also gemäß den Regeln und Mustern, nach denen Sprecher ihre Sätze aus Wörtern bauen, ist nichts dagegen einzuwenden. Doch jedem Muttersprachler ist klar: Der Satz ist kompletter Nonsens. Wie wollte man solche »ungeschriebenen« Fakten in ein Regelwerk aufnehmen?

Die Antwort der Computerlinguisten kam in Form eines Vorgangs, den man als Pretraining bezeichnet. Damit brachten sie ihre neuronalen Netze dazu, ihre eigenen Regelbücher zu improvisieren. Lange Zeit orientierten sich die Wissenschaftler dabei am Aufbau eines Wörterbuchs. Bei einem einflussreichen Pretraining-Verfahren, dem so genannten »word embedding«, lässt man ein neuronales Netz die Wörter einer großen Textmenge so in Zahlenwerte umwandeln, dass ähnliche Zahlenwerte auch für ähnliche inhaltliche Konzepte stehen. Dadurch kann der Computer die Wörter, die man ihm eingibt, auf ihrer Bedeutungsebene verarbeiten. Aber ein Netz, das ausschließlich mit Einzelwort-Embeddings trainiert wird, wäre blind für Beziehungen auf Satzebene. »Es würde annehmen, dass ›Mann beißt Hund‹ dasselbe bedeutet wie ›Hund beißt Mann‹«, sagt Tal Linzen, Computerlinguist von der Johns Hopkins University in Baltimore.

Ratespiel für KI: Welches Wort kommt als nächstes?

Besser wäre es, das Netz mit gehaltvolleren Regelbüchern auszustatten, die beispielsweise neben dem Vokabular auch noch Satzbau und Kontext berücksichtigen. Anfang 2018 fanden Wissenschaftler von OpenAI, der University of San Francisco, dem Allen Institute for Artificial Intelligence und der University of Washington praktisch zeitgleich eine raffinierte Lösung dafür. Anstatt bloß die unterste Schicht der neuronalen Netze mit »word embeddings« vorzutrainieren, gaben sie dem Netz als Ganzem eine neue Aufgabe: Sie ließen es ein eigenes Sprachmodell entwickeln.

»Das einfachste Sprachmodell funktioniert so: Man liest ein paar Wörter und versucht dann vorherzusagen, welches als nächstes kommt«, sagt Myle Ott, der als Wissenschaftler bei Facebook arbeitet. »Wenn ich sage: ›George Bushs Geburtsort ist‹, dann muss das Modell das nächste Wort in diesem Satz finden.«

»Das Tolle dabei ist: Die Netze lernen ganz von selbst jede Menge Syntax«Myle Ott

Die Idee erwies sich als vergleichsweise leicht umsetzbar. Die Entwickler fütterten ihren Netzen gewaltige Textmengen, die sie frei verfügbar im Netz fanden. Die gesamte englische Wikipedia beispielsweise, ein Datenbestand von Milliarden Wörtern in grammatisch wohlgeformten Sätzen. An ihnen lernten die Netze die Vorhersage des jeweils nächsten Worts. Das ist, als würde man den Menschen im chinesischen Zimmer sein eigenes Regelwerk verfassen lassen, und zwar ausschließlich auf Grundlage der Textschnipsel, die man ihm unter der Tür durchschiebt.

»Das Tolle dabei ist«, sagt Ott, »die Netze lernen ganz von selbst jede Menge Syntax.« Und mehr noch: Wenn man ein Netz dergestalt vortrainiert hat, kann man es umso einfacher auf ein gewünschtes Anwendungsgebiet spezialisieren. Beim so genannten Feintuning nutzt das System einfach sein bereits erworbenes Sprachwissen, um die neue Aufgabe zu erledigen.

Wie das geht, machten seinerzeit die Forscher von OpenAI vor. Im Juni 2018 ließen sie ihr Netz namens GPT einen ganzen Monat lang an fast einer Milliarde Wörtern aus 11 038 digitalisierten Büchern lernen und dabei ein Sprachmodell entwickeln. Beim GLUE-Test ergatterte es mit damals noch beachtlichen 72,8 Punkten direkt den Spitzenplatz im Ranking.

Das war die Zeit, als Experten wie Sam Bowman noch dachten, dass jeder weitere Fortschritt lange auf sich warten lassen würde. Doch dann kam BERT.

Der Tortenboden für die maschinelle Spracherkennung

Aber was ist BERT eigentlich? Zunächst einmal ist es kein fertiges neuronales Netz, das aus dem Stand heraus besser Sätze analysiert als ein Mensch. Stattdessen handelt es sich um ein sehr detailliertes Rezept für das Vortraining eines neuronalen Netzes. Genau wie ein Bäcker einer präzisen Anleitung folgt, um einen Tortenboden vorzubacken, den ein anderer dann in Bienenstich oder einer Hochzeitstorte verwandelt, kann man mit BERT Netze für Spezialaufgaben vorbereiten. Beim Design haben es die Google-Forscher darauf angelegt, eine ideale Grundlage für späteres Feintuning in Richtung ganz unterschiedlicher Einsatzzwecke zu legen. Zudem stellten sie die Bauanleitung für BERT frei verfügbar ins Netz. Wer das System nutzen will, muss also kaum selbst Hand anlegen: BERT ist so gesehen wie ein fertiger Tortenboden aus dem Supermarkt.

Vor allem das Zusammenspiel dreier Zutaten sei für den Erfolg verantwortlich, erläutert Omer Levy, der sich in Facebooks Forschungsabteilung mit BERT auseinandergesetzt hat. Die erste Komponente tauchte bereits in den Vorgängermodellen auf, sie ist eines von jenen Sprachmodellen, die dem Netz ein gewisses Basiswissen über Sprache vermitteln.

Zutat zwei hilft herauszufinden, welche Bestandteile eines Satzes die wichtigsten sind. Sie geht zurück auf Forschungen aus dem Jahr 2017. Damals bemerkte Jakob Uszkoreit, Computerlinguist bei Google AI Brain, dass herkömmliche neuronale Netze an einer eingebauten Schwäche zu leiden schienen: Sie analysierten Sätze immer nur Wort für Wort. Mit seinen Kollegen entwickelte er ein Verfahren, das es dem Netz erlaubt, seine »Aufmerksamkeit« auf wichtige Bestandteile zu lenken. Dazu zerlegen so genannte Transformer einen gegebenen Satz mehrfach auf unterschiedliche Weise.

Im Satz »Ein Hund beißt den Mann« könnte der Transformer beispielsweise »beißen« und »Mann« als Kombination aus Verb und Objekt betrachten, parallel dazu aber auch »beißen« und »Hund« als Verb-Subjekt-Kombination, wobei Artikel wie »ein« oder »den« übersprungen werden können. So entdeckt das Netz Beziehungen zwischen Wörtern, die im Satz gar nicht nebeneinanderstehen. Das ist unter anderem wichtig, um aus dem Kontext, in dem Wörter auftauchen, Informationen über ihre Bedeutung zu gewinnen.

Jede Woche ein neuer Rekord

Diese nichtlineare Art, Sätze zu analysieren, wird durch Zutat drei noch weiter ausgebaut. Anders als andere vortrainierte Modelle, die Texte nur von links nach rechts durcharbeiten, liest das Modell hinter BERT dieselben Texte zusätzlich auch noch von rechts nach links. Dann lernt es, Wörter in der Mitte zu erraten. Beispielsweise können die Forscher ihrem Netz den Satz »George Bush ___ im Jahr 1946 in Connecticut auf die Welt« eingeben, woraufhin es als Antwort »kam« ausspuckt. Sätze von vorn und hinten anzugehen, zwinge das System, so viele Informationen wie möglich aus jedem Satzabschnitt herauszuziehen, sagt Uszkoreit.

Jeder, der schon einmal eine Fremdsprache gelernt hat, weiß, dass man mit Lückentexten leicht prüfen kann, wie gut jemand die Sprache beherrscht. Es war darum bloß eine Frage der Zeit, bis diese Technik auch zum Pretraining der Netze eingesetzt wurde. Alle Eingabesätze nur von links nach rechts abzuarbeiten, wie es in den Zeiten vor BERT Standard war, sei eigentlich eine überflüssige Selbstbeschränkung gewesen, meint Kenton Lee, der ebenfalls bei Google forscht.

Alle drei entscheidenden Zutaten waren schon vor BERT verfügbar, doch erst Googles Ende 2018 veröffentlichtes Rezept bündelte sie zu einem mächtigen Werkzeug. Schnell wurde es von anderen Teams aufgegriffen und nach eigenen Wünschen adaptiert. Im Frühjahr 2019 gab es eine Phase, in der sich Teams von Microsoft und Alibaba, dem chinesischen Gegenstück zu Amazon, einen andauernden Wettbewerb um den Spitzenrang in der GLUE-Bestenliste lieferten. Wöchentlich hätten sie die Plätze getauscht, erinnert sich Bowman. Als im August 2019 eine neue BERT-Weiterentwicklung mit dem Namen RoBERTa auftauchte, kommentierte der DeepMind-Forscher Sebastian Ruder, Verfasser eines viel gelesenen Szene-Newsletters, nur noch trocken: »Wieder ein neuer Monat, wieder ein neuer Standard beim Pretraining der Sprachmodelle.«

Wettrennen zwischen USA und China

Beim Design von BERT wurden zahlreiche Festlegungen getroffen, die sich auf das Endergebnis auswirken. Etwa wie groß das zu Grunde liegende neuronale Netz ist, wie viele Daten beim Pretraining durchgearbeitet werden müssen, wie man in die Texte die erforderlichen Lücken einbaut und wie lange das Netz seine Fähigkeiten verfeinern darf.

Nachfolgemodelle wie RoBERTa optimieren diese Parameter immer weiter. Im Fall von RoBERTa entschieden Wissenschaftler von Facebook und der University of Washington, dem System mehr Zeit für das Pretraining zu geben und dafür eine größere Datenmenge und längere Sätze zu verwenden. Gleichzeitig verzichteten sie darauf, das Netz auch noch Folgesätze vorhersagen zu lassen, was Bestandteil von BERT war, sich jedoch als nachteilig herausgestellt hatte. Und zu guter Letzt machten sie die Lückentextaufgabe schwerer. Die Folge? Platz eins bei GLUE – jedenfalls für kurze Zeit.

Sechs Wochen später trieben Forscher von Microsoft und der University of Maryland das Spiel weiter und ergatterten mit einer wiederum verbesserten RoBERTa-Version ihrerseits den ersten Platz. Aber auch das war nicht von Dauer. Inzwischen haben zwei andere Verfahren, die angetreten sind, einige Schwächen von BERT auszumerzen, die Spitzenplätze übernommen: XLNet, eine Zusammenarbeit der Carnegie Mellon University mit dem Google-AI-Brain-Team, sowie ERNIE 2.0, der in den Forschungslaboren des chinesischen Suchmaschinenriesen Baidu entstand.

»Ich schaue mir diese neuen Veröffentlichungen gar nicht mehr an, ich finde sie extrem langweilig«Tal Linzen

Genauso wenig jedoch, wie jemand, der mit seinen Backrezepten experimentiert, automatisch die chemischen Hintergründe des Backens versteht, ruft das kontinuierliche Optimieren des Pretrainings zwangsläufig tiefere Einsichten zur Sprachverarbeitung hervor. »Ich bin ganz ehrlich mit Ihnen: Ich schaue mir diese neuen Veröffentlichungen gar nicht mehr an«, sagt John-Hopkins-Forscher Linzen, »ich finde sie extrem langweilig.« Das wissenschaftliche Rätsel bestehe für ihn vielmehr darin, herauszufinden, in welchem Sinn BERT und seine Nachfolger wirklich Sprache verstehen – oder ob sie »nur ein paar seltsame Tricks aufschnappen, mit denen man bei unseren gängigen Testverfahren gut abschneidet«. Anders gesagt: BERT macht viel richtig. Aber vielleicht aus den falschen Gründen?

Im Juli 2019 erzielten zwei Forscher der Cheng-Kung-Nationaluniversität in Taiwan, Timothy Niven und Hung-Yu Kao, ein Aufsehen erregendes Ergebnis. Sie nutzten BERT für ein Testverfahren, bei dem es um logische Schlussfolgerungen geht. Konkret gilt es, eine unausgesprochene Voraussetzung für die Gültigkeit eines Arguments zu identifizieren. Lautet die Behauptung sinngemäß »Es stimmt, dass Rauchen Krebs verursacht, denn wissenschaftliche Studien haben dies ergeben«, dann ist sie nur dann zutreffend, wenn die Voraussetzung »Wissenschaftliche Studien sind vertrauenswürdig« gilt. Die Alternative »Wissenschaftliche Studien sind teuer« ist zwar auch meist wahr, macht in diesem Zusammenhang jedoch keinen Sinn. Ohne Übung erreichen Menschen dabei im Schnitt gerade einmal 80 von 100 Punkten. BERT schaffte vom Start weg 77!

Ist der clevere BERT nur ein Kluger Hans?

Tatsächlich wäre es eine Sensation, wenn BERT den neuronalen Netzwerken neben Sprachverständnis auch noch die Fähigkeit zum logischen Schlussfolgern einimpfen könnte. Doch schon die Autoren der Studie selbst vermuteten, die Erklärung sei banaler: BERT könnte sich an oberflächlichen Mustern in der Formulierung der Voraussetzungen orientiert haben. Als sie ihre Trainingsdaten auf Hinweise darauf durchgingen, entdeckten sie zahlreiche solcher unerwünschten Anhaltspunkte. Nur ein Beispiel: Hätte BERT lediglich gelernt, immer diejenige Voraussetzung auszuwählen, die das Wort »nicht« enthielt, wäre er bereits auf eine Trefferquote von 61 Prozent gekommen. Entfernten die Forscher diese Schleichwege, sank BERTs Score von 77 auf 53. Er war dann nicht besser als jemand, der jede Antwort per Münzwurf ermittelt. Ein Artikel im Forschungsmagazin des Stanford Artificial Intelligence Laboratory »The Gradient« lobte das Misstrauen von Niven und Kao gegenüber ihren vermeintlich sensationellen Ergebnissen beim Logiktest und zog eine Parallele zum Klugen Hans und seinen angeblichen Mathematikkenntnissen. Mehr Skepsis würde dem ganzen Feld guttun.

Denn es ist nicht ausgeschlossen, dass ein ähnliches Phänomen hinter BERTs übermenschlich gutem Abschneiden bei GLUE steckt. Für eine aktuelle Studie sammelte Tal Linzen mit einigen Kollegen Belege für genau diese Annahme. Sie entwickelten sogar einen alternativen Datensatz für das Training der Netze, der solche Schummeleien gezielt aufdecken soll – die Heuristic Analysis for Natural-Language-Inference Systems oder kurz: HANS.

»Wir haben ein Modell, das wirklich etwas Wesentliches über Sprache gelernt hat«Sam Bowman

Auch Bowman räumt ein, dass die Trainingsdaten des GLUE-Tests ihre Schwächen haben. Menschengemachte Datensätze seien immer auf die eine oder andere Weise unausgewogen. »Es gibt zwar nicht den einen faulen Trick, mit der man alles in GLUE schafft«, sagt Bowman, trotzdem böten sie genügend Schwachstellen, die leistungsstarke Lernsysteme ausnutzen – ohne dass der Anwender davon etwas mitbekommt. Verbaut man BERT mit besser konzipierten Ausgangsdaten diese Abkürzungen, sinkt sein Score beim GLUE-Test merklich, wie die Informatikerin Yejin Choi von der University of Washington und dem Allen Institute beobachtete.

BERT habe eben kein umfassendes Verständnis der englischen Sprache, meint Bowman. Dass die Entwickler des Verfahrens auf Sand gebaut haben, glaubt er dennoch nicht: »Wir haben ein Modell, das wirklich etwas Wesentliches über Sprache gelernt hat.«

Bessere Evaluationsverfahren könnten helfen, Bowmans Annahme mit messbaren Resultaten zu untermauern. So stellte er Mitte 2019 mit Kollegen SuperGLUE vor, der für BERT-basierte Systeme besonders schwierig ist. Und tatsächlich liegt in dieser Disziplin aktuell noch der Mensch in Führung, wenn auch nur äußerst knapp.

Doch viele Forscher halten es für fraglich, ob es jemals einen Test geben wird, der uns zweifelsfrei davon überzeugt, dass eine Maschine echte künstliche Intelligenz anwendet. Man denke nur an Schach: »Schach sah immer wie ein wirklich guter Intelligenztest aus. Bis wir herausfanden, wie man einen Schachcomputer programmiert«, sagt Bowman.

Von »spektrum.de« übersetzte und bearbeitete Fassung des Artikels »Machines Beat Humans on a Reading Test. But Do They Understand?« aus »Quanta Magazine«, einem inhaltlich unabhängigen Magazin der Simons Foundation, die sich die Verbreitung von Forschungsergebnissen aus Mathematik und den Naturwissenschaften zum Ziel gesetzt hat.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Artikel zum Thema

Sprachbegabte Maschinen: Versteht der Computer uns jetzt wirklich?

Maschinen verbessern sich rapide

Verstehen Maschinen uns wirklich?

Ratespiel für KI: Welches Wort kommt als nächstes?

Der Tortenboden für die maschinelle Spracherkennung

Jede Woche ein neuer Rekord

Wettrennen zwischen USA und China

Ist der clevere BERT nur ein Kluger Hans?

Schreiben Sie uns!

Artikel zum Thema

Künstliche Intelligenz : Wie man heimlich Sprach-KIs aushebelt

Künstliche Minihirne : Kunsthirn aus dem Labor hat noch Schwächen

Maschinelles Lernen : Da habt ihr den Salat

Jemen : Mit dem Algorithmus gegen Cholera

Sprache und Linguistik

Informationstechnologie

Roboter

SponsoredPartnerinhalte