Linguistik: KI-Sprachmodell widerlegt Chomskys Universalgrammatik

Angeboren oder erlernt: Wie kommt der Mensch zur Sprache?

Kommen wir mit einem inneren grammatischen Bauplan auf die Welt – oder bildet sich Sprache erst durch Gebrauch und Erfahrung heraus? Aktuelle Ergebnisse aus der Kognitionsforschung und der künstlichen Intelligenz geben dieser alten Debatte eine neue, überraschende Wendung.

von Patrick Krauss und Achim Schilling

Ein Junge im Profil spricht, während Buchstaben in verschiedenen Größen aus seinem Mund strömen und sich in der Luft verteilen. Der Hintergrund ist dunkel, wodurch die weißen Buchstaben hervorgehoben werden. Das Bild symbolisiert Kommunikation oder Sprachentwicklung. — © lassedesignen / stock.adobe.com (Ausschnitt)
Sprache ist etwas zutiefst Menschliches. Doch wie erwerben wir sie in der Kindheit? Ist uns eine Universalgrammatik angeboren oder handelt es sich um einen reinen Lernprozess?

Vor rund 2500 Jahren ließ der ägyptische Pharao Psammetich I laut Überlieferung ein grausames Experiment durchführen. Zwei Neugeborene wurden einem Hirten übergeben, der sie ernähren und versorgen sollte – aber niemals mit ihnen reden durfte. Psammetich wollte herausfinden, welche Sprache die ursprünglich erste war. Seine Hypothese: In dieser Ursprache der Menschheit müssten die Kinder irgendwann von selbst Worte äußern.

Tatsächlich berichtete später der Historiker Herodot, die Kinder hätten angeblich nach einer gewissen Zeit des Heranwachsens angefangen, »bekos« zu rufen, das phrygische Wort für Brot. Für Psammetich war der Fall damit klar: Phrygisch sei die älteste Sprache der Welt. Aus heutiger Sicht erscheint uns dieses Experiment ebenso naiv wie grausam. Doch die zugrunde liegende Frage ist ungelöst. Kommt der Mensch bereits mit sprachlichem Wissen zur Welt, oder entsteht Sprache erst durch Erfahrung?

Heute wissen wir, dass Kinder ohne verbalen Input keine Sprache entwickeln. Aber was genau sie beim Spracherwerb lernen, ist nach wie vor umstritten. Müssen sie lediglich Wörter und Bedeutungen speichern, während die Grammatikstruktur bereits im Kopf bereitliegt? Oder entstehen auch abstrakte Kategorien wie Nomen und Verben, Satzbaupläne und grammatische Regeln erst durch den Gebrauch der Sprache selbst?

Wenn Kinder sprechen lernen, geht es zunächst um Bedeutung: um Dinge, Handlungen, Absichten. Wörter stehen für etwas in der Welt, lange bevor sie korrekt in Sätze eingebaut werden. Doch schon früh können Kinder auch erstaunlich abstrakte Strukturen bilden: Sie unterscheiden Nomen von Verben, bilden Wortfolgen wie »der Hund läuft« und vermeiden andere wie »läuft Hund der«. Woher kommt dieses Wissen?

Zwei Sichtweisen im Clinch

Seit Jahrzehnten stehen sich in der Linguistik zwei große Denkschulen nahezu unversöhnlich gegenüber. Auf der einen Seite die von dem berühmten US-amerikanischen Sprachwissenschaftler Noam Chomsky begründete Idee der Universalgrammatik. Ihr zufolge kommen Menschen mit einem angeborenen Grundgerüst zur Welt. Zentrale Kategorien wie Nomen und Verben, grundlegende Satzbaupläne oder abstrakte grammatische Prinzipien seien genetisch festgelegt. Ein zentrales Argument für diese Position lautet: Der sprachliche Input, den Kinder erhalten, sei schlicht zu gering, zu unsystematisch und zu fehlerhaft, um daraus eigenständig ein so komplexes System wie Grammatik zu konstruieren.

Das ist erst einmal nicht von der Hand zu weisen. Ein Kind hört in den ersten Lebensjahren zwar täglich Sprache, doch insgesamt handelt es sich um vielleicht einige Millionen Wörter – verteilt über Jahre, oft begleitet von Pausen, Versprechern, abgebrochenen Sätzen und stark kontextabhängigen Äußerungen. Trotzdem beherrschen Kinder am Ende nicht nur den Wortschatz ihres Umfelds, sondern auch hoch abstrakte Regeln, die sie selbstständig auf völlig neue Sätze anwenden können. Für Vertreter der Universalgrammatik lässt sich das kaum anders erklären als durch angeborenes Vorwissen.

Auf der anderen Seite stehen sogenannte gebrauchsbasierte Ansätze und die kognitive Linguistik, prominent vertreten etwa durch den Anthropologen Michael Tomasello und die Linguistin Adele Goldberg von der Princeton University. Sie zeichnen ein radikal anderes Bild. Aus ihrer Sicht ist Sprache kein vorgefertigtes Regelwerk, sondern ein dynamisches, »emergentes« System, das durch Nutzung entsteht. Grammatik ergibt sich hier aus wiederkehrenden Mustern, aus Bedeutungsinhalten, sozialer Interaktion und der Fähigkeit des menschlichen Gehirns, zu verallgemeinern.

Große KI-Modelle wie ChatGPT werden mit Hunderten Milliarden oder sogar Billionen Wörtern trainiert

Der Disput erhält zusätzliche Brisanz durch den Vergleich mit heutigen künstlichen Sprachmodellen (Large Language Models). Große KI-Modelle wie ChatGPT werden mit Hunderten Milliarden oder sogar Billionen Wörtern trainiert – also mit einem Input, der den eines menschlichen Kindes um viele Größenordnungen übersteigt. Und doch beruhen sie auf einem extrem einfachen Prinzip: der Vorhersage des jeweils nächsten Worts. Wenn solche Modelle aufgrund derart riesiger Datenmengen Grammatik lernen, stützt das zunächst die Argumente der Universalgrammatik. Scheinbar braucht man dafür sehr viel eingefütterte Information. Aber laut unseren aktuellen Untersuchungen können selbst vergleichsweise kleine neuronale Netze mit deutlich weniger Dateninput, der eher dem beim menschlichen Spracherwerb ähnelt, linguistische Kategorien entwickeln. Ein angeborenes Grammatikmodul braucht es dafür nicht.

Künstliche neuronale Netze als Sprachlabor

Für die Sprachforschung stellen künstliche neuronale Netze weit mehr als nur technische Anwendungen dar. Sie fungieren als eine Art experimentelles Labor für Theorien über das Gehirn. Der große Vorteil solcher Modelle liegt auf der Hand: Anders als im menschlichen Gehirn lässt sich in ihnen jede einzelne Aktivierung eines künstlichen Neurons, jede interne Repräsentation, jede Veränderung durch Lernen exakt auslesen. Man kann ihnen gezielt bestimmte Informationen vorenthalten, andere variieren, Trainingsdaten streng kontrollieren oder Architekturen systematisch verändern. Was sich im menschlichen Gehirn nur indirekt über Bildgebung oder Elektrophysiologie erschließen lässt, liegt hier offen zugänglich.

In diesem Rahmen haben wir in unserer Studie ein sogenanntes LSTM-Netzwerk (Abkürzung für Long Short-Term Memory) untersucht, dessen zeitliche Verarbeitung grob den neuronalen Dynamiken im Gehirn entspricht. Es besteht aus mehreren Schichten, von denen jede einzelne die Daten weiterverarbeitet. Man nennt solche Modelle auch »tiefe« Netzwerke. Wir trainierten es gezielt mit vergleichsweise wenig Sprachinput: dem Text eines einzigen Romans. Diese Datenmenge entspricht eher dem, was ein menschliches Kind in den ersten Lebensjahren hört, als dem Trainingsmaterial moderner Large Language Models.

Die Aufgabe des Netzes war einfach: das zehnte Wort vorhersagen

Die Aufgabe des Netzes war einfach: Es bekam neun aufeinanderfolgende Wörter vorgegeben, das zehnte sollte es vorhersagen. Entscheidend ist, dass das Modell keine Informationen über Wortklassen bekam, keine expliziten Regeln zu Grammatik und Syntax.

Nach dem Training interessierte uns jedoch gar nicht so sehr, wie gut das Netzwerk das jeweils nächste Wort vorhersagen konnte. Im Zentrum stand eine andere Frage: Wie organisiert es die internen Repräsentationen, die das Netz von den vorhergesagten Wörtern anlegt? Um das zu beantworten, erfassten wir die Aktivitätsmuster in den verschiedenen Schichten des Netzwerks und werteten sie mit Methoden der neurowissenschaftlichen Datenanalyse aus.

Grammatik als Nebenprodukt

Das Ergebnis war verblüffend. Die internen Aktivierungen des Netzes hängen demnach stark von der Wortklasse des nächsten Wortes ab, das vorhergesagt werden soll. Immer wenn ein Verb folgt, entstehen einander ähnliche Aktivitätsmuster, die sich damit in eine Gruppe einteilen lassen (sie »clustern«, wie Fachleute sagen). Bei einem Nomen oder Funktionswort bilden die Muster jeweils eine andere Gruppe. Damit formen sich Kategorien wie Nomen, Verben, Adjektive oder Artikel als klar unterscheidbare Strukturen, obwohl sie dem Modell nie beigebracht wurden. Das Netzwerk entdeckt Wortklassen also nicht, weil man sie ihm erklärt hat, sondern weil sie einer erfolgreichen Vorhersage dienen. Grammatik ist demnach nicht die Voraussetzung, um Sprache zu verarbeiten, sondern entsteht gewissermaßen als Nebenprodukt.

© Surendra, K. et al.: Word class representations spontaneously emerge in a deep neural network trained on next word prediction. Proceedings of the 22nd IEEE International Conference on Machine Learning and Applications (ICMLA), 1481-1486, 2023; Nutzung genehmigt von IEEE / CCC; Bearbeitung: Spektrum der Wissenschaft (Ausschnitt)

Gruppenbildung im neuronalen Netz | Ein mit Sprache trainiertes neuronales Netz sollte aufgrund einer vorgegebenen Folge von neun Wörtern das zehnte vorhersagen. Das Bild zeigt die dabei entstehende Aktivität künstlicher Neurone in der ersten und der letzten Schicht des Netzwerks, wobei verschiedene Farben die jeweilige Aktivität abhängig von der vorhergesagten Wortklasse angeben. Während die Aktivitäten in der ersten Schicht (links) noch zufällig verteilt sind, bilden sie in der letzten Schicht (rechts) klar erkennbare Gruppen – sie »clustern«.

In einer Folgestudie gingen wir einen Schritt weiter und trainierten das Netzwerk darauf, auf denselben Input von neun Wörtern nicht nur das nächste, sondern gleich die nächsten zwei Wörter vorherzusagen. Nun clusterte das Netz nicht mehr nach einzelnen Wortklassen, sondern nach verschiedenen Kombinationen von Wortklassen der beiden vorherzusagenden Wörter. Genau solche Wortartenfolgen – etwa Artikel + Nomen oder Nomen + Verb – bilden die elementaren Bausteine grammatischer Regeln!

Von Wortklassen zu Konstruktionen

Noch einen Schritt weiter gehen unsere jüngsten Arbeiten, in denen nicht mehr nur einzelne Wortklassen im Fokus stehen, sondern sogenannte Argumentstruktur-Konstruktionen (siehe Glossar). Sie tragen eine zusätzliche Bedeutung in sich, die über jene der beteiligten Wörter hinausgeht; Beispiele sind die transitive Konstruktion (»X tut Y«), die ditransitive (»X gibt Y Z«) oder resultative Muster (»X macht Y zu Z«).

Glossar

Argumentstruktur-Konstruktionen sind abstrakte Satzmuster, die festlegen, wie viele und welche Rollen ein Verb in einem Satz einnimmt. Beispiele sind die transitive Konstruktion (»Der Hund jagt die Katze«), die ditransitive Konstruktion (»Sie gibt dem Kind ein Buch«) oder resultative Muster (»Er schlägt den Nagel krumm«). Entscheidend ist: Diese Konstruktionen tragen eine eigenständige Bedeutung, die nicht allein aus den einzelnen Wörtern folgt. Dem sprachwissenschaftlichen Ansatz der Konstruktionsgrammatik zufolge gelten sie als zentrale Bausteine der Grammatik.

Predictive Coding ist ein einflussreiches Modell aus der Neurowissenschaft, nach dem das Gehirn fortlaufend Vorhersagen über seine Umwelt trifft. Es sagt voraus, was als Nächstes passieren sollte – etwa welche Sinneseindrücke folgen oder welches Wort gleich zu hören ist. Treffen diese Erwartungen zu, wird das interne Modell bestätigt. Weichen sie ab, entstehen Vorhersagefehler, die das Gehirn nutzt, um seine Modelle anzupassen. Wahrnehmung, Lernen und Handeln lassen sich so als fortlaufende Minimierung von Vorhersagefehlern verstehen.

Lange Zeit galt es als offene Frage, ob derartige abstrakte Strukturen überhaupt durch Sprachgebrauch entstehen können oder ob sie möglicherweise angeborene Fähigkeiten voraussetzen. Daher untersuchten wir, inwieweit neuronale Sprachmodelle beim reinen Lernen von Vorhersageaufgaben auch Repräsentationen für die erwähnten Argumentstruktur-Konstruktionen ausbilden. Wieder sollten die Modelle lediglich das nächste Wort vorhersagen.

Die Ergebnisse sind bemerkenswert: Sowohl die in den vorigen Versuchen verwendeten kleinen Sprachmodelle als auch die gängigen großen Versionen wie ChatGPT erzeugen klar voneinander unterscheidbare Repräsentationen für verschiedene Argumentstruktur-Konstruktionen. Dabei spielt es offenbar keine entscheidende Rolle, wie das Modell genau arbeitet. Wichtig ist vielmehr, dass das Netzwerk lernen soll, sprachliche Fortsetzungen vorherzusagen. Die Konstruktionen entstehen, weil sie für diese Aufgabe nützlich sind.

Wie beim menschlichen Spracherwerb

Natürlich sind künstliche neuronale Netze trotz gewisser Ähnlichkeiten im Aufbau keine Gehirne. Sie zeigen weder Bewusstsein noch Motivation, keine Emotionen, keine soziale Einbettung. Und doch teilen sie mit dem menschlichen Gehirn ein zentrales, möglicherweise fundamentales Prinzip: Lernen durch Vorhersage. Genau darin liegt ihre wissenschaftliche Bedeutung. Denn wenn selbst stark vereinfachte Modelle ohne vorgegebenes Wissen aus bloßem sprachlichen Input abstrakte Kategorien entwickeln, könnte auch das menschliche Gehirn Sprache auf ähnliche Weise erwerben.

Der Theorie des »Predictive Coding« zufolge versucht das Gehirn vorwegzunehmen, was als Nächstes passiert

Aus neurowissenschaftlicher Sicht fügt sich dieses Bild nahtlos in die Theorie des »Predictive Coding« ein. Ihr zufolge versucht das Gehirn fortlaufend, interne Modelle der Welt zu bilden, um vorherzusagen, was als Nächstes passiert. Wahrnehmung, Lernen und Handeln beruhen darauf, Abweichungen zwischen Erwartung und Realität – sogenannte Vorhersagefehler – zu minimieren. Sprache wäre dann kein Sonderfall, sondern ein besonders komplexer Anwendungsbereich desselben Prinzips.

Kinder nehmen Sprache also nicht einfach nur passiv auf. Sie antizipieren unbewusst, welches Wort, welcher Laut, welche Bedeutung als Nächstes kommen könnte. Treffen diese Erwartungen zu, wird das interne Modell bestätigt, andernfalls wird es angepasst. Schritt für Schritt entstehen so immer stabilere Repräsentationen sprachlicher Regeln. Wortklassen, grammatische Muster und ganze Konstruktionen sind demnach keine vorab festgelegten Bausteine, sondern das Ergebnis erfolgreicher Vorhersagen. Ob im kindlichen Gehirn oder im künstlichen Netzwerk – überall dort, wo Systeme lernen, Sprache zu antizipieren, beginnt sich Grammatik fast zwangsläufig zu formen.

Angeboren oder erlernt: Wie kommt der Mensch zur Sprache?

Zwei Sichtweisen im Clinch

Künstliche neuronale Netze als Sprachlabor

Grammatik als Nebenprodukt

Von Wortklassen zu Konstruktionen

Glossar

Wie beim menschlichen Spracherwerb

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Forschung mit KI: Wo Mathematik und KI zusammenpassen – und wo nicht

Künstliche Intelligenz: Einblick in die »Gedankengänge« von DeepSeeks KI-Sprachmodell

KI als Wetterfrosch: Wettervorhersagen ohne meteorologisches Verständnis

Themenkanäle

Der digitale Mensch

Informationstechnologie

Künstliche Intelligenz

SponsoredPartnerinhalte