Gedankenlesen: Wenn die KI ins Hirn blickt
Hirnscanner zeigen das Gehirn in Aktion. Die funktionelle Magnetresonanztomografie (fMRT) verrät beispielsweise, welche Hirnpartien gerade besonders aktiv sind. Das tut sie zwar nicht sonderlich hochaufgelöst, aber dennoch auf eine für die Hirnforschung höchst aufschlussreiche Weise. Eines geben die Scans aber nicht preis, zumindest nicht einfach so: Was die Person im Scanner gesehen, gehört oder gedacht hat.
Erst mit Hilfe neuester Computertechnik kommt man dieser Vorstellung ein Stück näher. Wie weit, hat nun ein Forscherteam demonstriert. Dank künstlicher Intelligenz (KI) haben sie beim »Gedankenlesen« per fMRT einen bemerkenswerten Schritt nach vorn gemacht. Sie entwickelten einen Decoder, der mit vergleichsweise hoher Genauigkeit den Inhalt der Geschichten wiedergeben kann, die eine Person im Scanner gerade hörte oder sich vorstellte. Der Decoder konnte sogar die Handlung eines Kurzfilms erraten, den Probanden im Scanner schauten, allerdings mit verringerter Genauigkeit.
»Es gibt viel mehr Informationen in den Hirndaten, als wir anfangs dachten«, sagte Jerry Tang, Neuroinformatiker von der University of Texas in Austin und Hauptautor der Studie, während einer Pressekonferenz. Die am Montag in der Zeitschrift »Nature Neuroscience« veröffentlichte Arbeit bezeichnet Tang als Machbarkeitsstudie, die gezeigt habe, dass Sprache grundsätzlich aus Scans der Hirnaktivität entschlüsselt werden könne. In ausgereifter Form könnte eine solche Technologie Menschen helfen, die selbst nicht sprechen oder anderweitig nach außen hin kommunizieren können. Patienten nach einem Schlaganfall beispielsweise oder Personen mit amyotropher Lateralsklerose.
Computer erkennt die Kernaussage einer Geschichte
Mit dem Decodieren der Scans steht die Forschung allerdings noch ganz am Anfang. Die Decoder müssen für jede Person neu trainiert werden. Sie liefern auch keine exakte Mitschrift der Gedanken, die die Person gehört oder sich vorgestellt hat. Ein bemerkenswerter Fortschritt ist es dennoch. Tang und Kollegen wissen jetzt, dass ein KI-Sprachsystem – ein früher Verwandter des Modells hinter ChatGPT namens GPT-1 – hilfreiche Unterstützung dabei leisten kann, Vermutungen über den Inhalt des Gedachten anzustellen. Die engen Grenzen der Technologie verhindern, dass solche Decoder auf breiter Front ge- oder missbraucht werden. Über Maßnahmen zum Schutz der mentalen Privatsphäre könne man sich aber trotzdem schon einmal Gedanken machen, meinen die Fachleute hinter der Studie.
»Wir bekommen immer noch nur eine grobe Zusammenfassung oder Kernaussage der ursprünglichen Geschichte«, sagt Alexander Huth, wie Tang ein Neuroinformatiker an der University of Texas in Austin und Letztautor der Studie. Wie das aussieht, lässt sich einem Beispiel aus der Untersuchung entnehmen. Die Person im Hirnscanner hörte den Satz: »Ich stand von der Luftmatratze auf und drückte mein Gesicht gegen das Glas des Schlafzimmerfensters in der Erwartung, Augen zu sehen, die zurückstarren, aber stattdessen fand ich nur Dunkelheit.« Auf Basis der dabei gewonnenen Gehirnscans lieferte das Modell als Ergebnis: »Ich ging einfach weiter zum Fenster und öffnete es, ich stellte mich auf die Zehenspitzen und schaute hinaus, ich sah nichts und schaute wieder hoch, ich sah nichts.«
»Insgesamt liegt noch ein weiter Weg vor uns. Die aktuellen Ergebnisse sind trotzdem besser als alles, was wir bisher in der fMRT-Sprachdecodierung hatten«, sagt Anna Ivanova. Die Neurowissenschaftlerin vom Massachusetts Institute of Technology war nicht an der Studie beteiligt.
Dem Modell entgeht vieles in den Geschichten, die es entschlüsselt. Es kämpft auch mit der Grammatik, zum Beispiel mit Pronomen wie »er«, »sie« oder »es«. Es kann nicht die Eigennamen von Orten oder Personen entziffern, und manchmal liegt es einfach komplett daneben. Im Vergleich zu früheren Methoden schneidet es jedoch deutlich besser ab, was die Genauigkeit angeht. In 72 bis 82 Prozent der Fälle entschlüsselte der Decoder die Bedeutung der Geschichten genauer, als es der Zufall erwarten ließe.
KI hilft bei der Entzifferung
»Die Ergebnisse sehen wirklich gut aus«, sagt Martin Schrimpf, Neuroinformatiker am Massachusetts Institute of Technology und nicht an der Studie beteiligt. Vergleichbare Experimente seien bisher nach viel versprechenden Anfängen an unsichtbare Grenzen gestoßen. Tangs Team habe hier aber »ein viel genaueres Sprachmodell verwendet«, sagt Schrimpf. GPT-1 wurde im Jahr 2018 von dem KI-Unternehmen OpenAI veröffentlicht. Es ist die ursprüngliche Version von GPT-4, jenem Modell, das hinter der neuesten Auflage von ChatGPT steckt.
Neurowissenschaftler arbeiten seit Jahrzehnten daran, Gehirnscans zu entschlüsseln, um mit Menschen in Kontakt zu treten, die nicht mit der Außenwelt kommunizieren können. Ein Meilenstein wurde 2010 erreicht. Damals verwendeten Wissenschaftler die Magnetresonanztomografie, um einer Person, die ihren Körper nicht kontrollieren konnte und nach außen hin bewusstlos wirkte, Ja-oder-Nein-Fragen zu stellen.
Die Decodierung ganzer Wörter und Sätze stellt jedoch eine viel bedeutendere Herausforderung dar. Das größte Hindernis ist der Hirnscanner selbst. Er bildet nicht direkt das schnelle Feuern der Hirnzellen ab, sondern wie sich deren Sauerstoffversorgung im Lauf der Zeit verändert. Das führt dazu, dass fMRT-Scans »zeitlich unscharf« sind: Stellen Sie sich ein Foto vor, bei dem ein belebter Bürgersteig für mehrere Sekunden belichtet wurde. Das Ergebnis ist ein unscharfes, verwaschenes Bild der Personen, die währenddessen dort entlangliefen. Der Versuch, anhand von fMRT-Bildern festzustellen, was in einem bestimmten Moment im Gehirn passiert ist, gleicht dem Versuch, die Personen auf diesem Foto zu identifizieren. Dass jedes Wort nur Sekundenbruchteile eines gesprochenen Satzes dauert, macht das Problem nicht gerade einfacher. Ein einzelnes fMRT-Bild enthält die gesammelte Hirnreaktion auf bis zu 20 Wörter gleichzeitig.
Dank der Vorhersagefähigkeiten von KI-Sprachmodellen scheint man jedoch eine Schwierigkeit dabei zu knacken. In der neuen Studie lagen drei Teilnehmer insgesamt 16 Stunden lang verteilt auf 15 Sitzungen regungslos im Scanner. Über Kopfhörer hörten sie Ausschnitte aus Podcasts und Radiosendungen wie »The Moth Radio Hour« und »The New York Times' Modern Love«. Währenddessen verfolgte der Scanner den Blutfluss in den Sprachzentren des Gehirns. Nun kam ein lernfähiger Algorithmus zum Einsatz, an dem die Gruppe um Huth bereits seit vielen Jahren arbeitet. Er ist das Herzstück der Technologie und wird darauf trainiert, die Daten des Scanners mit den parallel dazu aufgezeichneten Sprachdaten der Radiosendungen in Verbindung zu bringen. Anschließend sagt er für jede vorgegebene Wortfolge die zu erwartende Hirnaktivität voraus. Oder anders gewendet: Gibt man ihm eine gemessene Hirnreaktion vor sowie einen Satz auf Englisch, sagt es einem, mit welcher Wahrscheinlichkeit der gegebene Satz zur gegebenen Hirnreaktion führt.
Ein Sprachmodell verkleinert den Suchraum
Nun folgte der eigentliche Test: Sie setzten diesem trainierten Modell neue Hirnscans vor, auf deren Basis es voraussagen sollte, was eine Person zum Zeitpunkt der Scans gehört hat. Eigentlich hätte die Gruppe nun jedes nur denkbare Wort der englischen Sprache hernehmen und testen müssen, ob es hinter der gemessenen Hirnaktivität steckt. Das wäre jedoch viel zu viel und auch unnötige Rechenarbeit gewesen. Darum griff die Arbeitsgruppe auf eben jenes GPT-1 zurück. Dieses System kann verhältnismäßig gut vorhersagen, mit welchem Wort ein angefangener Satz am ehesten weitergeht. So entstand eine kleine Auswahl möglicher Wortfolgen, aus denen das trainierte Modell diejenige wählte, die am wahrscheinlichsten mit den gemessenen Hirnscans übereinstimmte. Dann ging GPT-1 zur nächsten Wortfolge über, bis das System eine ganze Geschichte entschlüsselt hatte.
»Ich glaube, wir decodieren etwas, das tiefer geht als Sprache«Alexander Huth
Mit derselben Methode entzifferte das Team auch Geschichten, die die Teilnehmer nur in ihrer Vorstellung erzählten. Sie wiesen die Teilnehmer an, sich vorzustellen, wie sie eine detaillierte, einminütige Geschichte erzählen. Die Genauigkeit des Decodierers nahm zwar ab, blieb aber besser als bloßes Raten. Eine offensichtliche Schlussfolgerung lässt sich daraus schon ziehen: Wenn man sich etwas vorstellt, sind daran ganz ähnliche Abläufe im Hirn beteiligt, wie wenn man etwas einfach nur hört. Dass sich vorgestellte Sprache mit dem Computer in Wörter übersetzen lässt, ist entscheidend für die Entwicklung von Gehirn-Computer-Schnittstellen, die jenen helfen, die selbst nicht sprechen können.
Das überraschendste Ergebnis war für die Forscher, dass die Decoder-KI auch über die reine gesprochene Sprache hinaus zutreffende Resultate lieferte. Selbst als die Probanden im Scanner animierte Kurzfilme ohne Ton anschauten, konnte das System anhand der Hirnscans rekonstruieren, worum es in den Filmen ging. »Mich haben die Videoexperimente mehr überrascht als die mit der imaginierten Sprache«, sagte Huth bei der Vorstellung der Studie vor Medienvertretern. »Ich glaube, wir decodieren etwas, das tiefer geht als Sprache.«
Gedankenlesen mit der Mütze
Dennoch ist die Technologie noch viele Jahre davon entfernt, als Gehirn-Computer-Schnittstelle im täglichen Leben eingesetzt zu werden. Zum einen ist die Scantechnologie nicht mobil, die Scanner nehmen ganze Räume in Krankenhäusern und Forschungseinrichtungen ein und kosten Millionen von Euro. Huths Team arbeitet jedoch daran, die an den Scannern gewonnenen Erkenntnisse auf Bildgebungsverfahren zu übertragen, die man wie eine Mütze tragen kann – etwa die funktionelle Nahinfrarotspektroskopie (fNIRS) und die Elektroenzephalografie (EEG).
Auch geht es bislang nicht ohne stundenlange Sessions zur Datengewinnung, die für jede einzelne Person erneut nötig werden. »Es ist nicht wie bei Ohrstöpseln, die man sich einfach ins Ohr steckt und fertig«, sagt Schrimpf. Er erwartet allerdings, dass die Technologie in Zukunft mit weniger Individualisierung auskommt, sobald die Wissenschaft Gemeinsamkeiten zwischen dem Gehirn verschiedener Menschen erkennt. Huth hingegen schätzt, dass künftige Modelle, die noch genauer sein sollen, sogar noch mehr individuelle Anpassung erfordern.
Das Team hat auch ausprobiert, was passiert, wenn jemand die Scans sabotieren möchte. Dann müsse derjenige einfach das, was er oder sie per Kopfhörer hört, ignorieren und an eine ganz andere Geschichte denken. Als die Forscher die Teilnehmer aufforderten, das zu tun, habe der Decoder nur noch Nonsens geliefert, erzählt Huth. »Er fiel einfach komplett auseinander.«
Trotzdem sei es auch jetzt schon wichtig, sich Gedanken über eine Regulierung von Gedankenlesetechnologie zu machen, betonen die Mitglieder des Teams. Momentan könne man damit gar kein Unheil anrichten, selbst wenn man wolle, sagt Tang, »aber wir sollten nicht zusehen, dass die Technik an diesen Punkt kommt, ohne dass wir Maßnahmen ergriffen hätten, die das im Notfall verhindern«.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.