Sprach-Neuroprothesen: Wieder sprechen dank Hirnimplantat

Wenn Sergey Stavisky einen Vortrag über seine Arbeit hält, zeigt er zwischendurch manchmal einen kurzen Filmausschnitt. Darin ist ein Mann zu sehen, an dessen Kopf zwei Kabel befestigt sind. Er versucht zu sprechen; die Laute, die aus seinem Mund dringen, sind jedoch verwaschen und nicht zu verstehen. Dennoch erscheint auf dem Computerbildschirm Wort für Wort der Satz, den er sagen möchte.
Stavisky ist Professor für Neurowissenschaften an der University of California in Davis. Der Mann in seinem Video heißt Casey Harrell. Er leidet an amyotropher Lateralsklerose, abgekürzt ALS. Bei dieser seltenen Erkrankung sterben nach und nach Nervenzellen im Hirnstamm und im Rückenmark ab, die für die Steuerung der Muskeln verantwortlich sind. Das erklärt auch Harrells Artikulationsschwierigkeiten: Er kann die Bewegung von Lippen, Zunge, Gaumen und Kehlkopf nur noch unzureichend koordinieren.
Der Motorkortex – also jener Bereich der Großhirnrinde, der die eigentlichen Bewegungsbefehle erzeugt – ist bei ALS jedoch nicht geschädigt. Das macht diese Region für Fachleute wie Stavisky hochinteressant. Denn der Laut, den wir gerade erzeugen möchten, bestimmt, welche Steuerungssignale unser Gehirn dort generiert. Demnach sollte es prinzipiell möglich sein, aus der Aktivität des Motorkortex zu rekonstruieren, was Harrell sagen will.
Der Computer erahnt, was der Patient sagen will
Daher stecken bei ihm dort vier sogenannte Mikroelektroden-Arrays, auch MEAs genannt. Sie ähneln dem Kopf einer Haarbürste, sind aber quadratisch und mit gut drei mal drei Millimetern Fläche ziemlich klein. Statt Borsten trägt jedes Array 64 Nadeln – die Elektroden. Diese zeichnen jeweils die elektrische Spannung einiger weniger Neurone auf, die nahe an ihrer Spitze liegen.
Die beiden Kabel, die im Video zu sehen sind, transportieren die Signale der 256 einzelnen Messkanäle durch Harrells Schädeldecke zu einem Computer. Und der schafft etwas, was vor einigen Jahren noch nahezu unmöglich schien: Er liest aus dem Verlauf dieser Spannungskurven mit hoher Treffgenauigkeit heraus, was Harrell gerade über die Lippen zu bringen versucht. 96 Prozent der Wörter, die auf dem Bildschirm erscheinen, sind korrekt.
Der US-Amerikaner nutzt die Technologie inzwischen seit mehr als einem Jahr. Mittlerweile bemüht er sich nicht mehr, die passenden Laute zu erzeugen, sondern intoniert sie stumm – das ist weniger anstrengend. Seine Frau schließe ihn nach dem Aufwachen an den Computer an und stöpsle ihn abends wieder ab, erzählt Sergey Stavisky in einer Onlinepräsentation seiner Zuhörerschaft. Selbst Zoom-Konferenzen mit Kolleginnen und Kollegen führe Harrell so durch.
Beim Anblick der Worte in Tränen ausgebrochen
Welchen Zuwachs an Lebensqualität diese Möglichkeit für ihn bedeutet, lässt sich für Außenstehende kaum ermessen. In einer Publikation im »The New England Journal of Medicine« berichten die beteiligten Fachleute, der damals 45-Jährige sei in Tränen ausgebrochen, als die Worte, die er zu sprechen versuchte, zum ersten Mal korrekt auf dem Bildschirm erschienen. »ALS-Patienten verfügen in der Regel über völlig normale kognitive Fähigkeiten«, erklärt Rüdiger Rupp, Professor für Assistive Neurotechnologie am Universitätsklinikum Heidelberg. »Dennoch verlieren sie nach und nach ihr Vermögen, sich mit anderen auszutauschen. Was das heißt, kann man sich als Gesunder nur schwer vorstellen.«
Es gibt bereits eine Reihe von Hilfsmitteln, die die Betroffenen dabei unterstützen, sich zu äußern. Das beginnt bei einfachen Buchstabentafeln, über die sie per Fingerzeig Worte buchstabieren können. Wenn das nicht mehr geht, greifen viele Patientinnen und Patienten schließlich auf technologische Lösungen zurück. Dazu zählen beispielsweise Steuergeräte für den Mauszeiger, die sich per Augen- oder Kopfbewegung bedienen lassen. Über eine solche Kopfmaus können selbst ALS-Kranke im fortgeschrittenen Stadium auf einer virtuellen Bildschirmtastatur schreiben.
Auf Wunsch liest eine spezielle Software das Ergebnis sogar vor. Es handelt sich dann also um eine rudimentäre Form von sprachlicher Kommunikation – allerdings eine sehr langsame. Casey Harrell kommt mit seiner Kopfmaus auf durchschnittlich sechs Wörter pro Minute. Mit seiner Neuroprothese schafft er in derselben Zeit 30 bis 40 Wörter, ist also mehr als fünfmal so schnell. Bei Gesunden ist die Sprechgeschwindigkeit jedoch mit etwa 150 Wörtern pro Minute noch einmal deutlich höher.
Rasante Entwicklung
Dennoch ist schon der aktuelle Stand der Technologie ziemlich beeindruckend. Zumal sie sich momentan rasant weiterentwickelt. Alle paar Monate erscheint eine neue Publikation, die die Grenze des Machbaren weiter verschiebt. Dabei profitiert das Feld von der Tatsache, dass man immer besser versteht, welche Hirnregionen für welche Aufgaben zuständig sind. »Gerade der Motorkortex ist inzwischen hervorragend erforscht«, erklärt Christian Herff, Assistenzprofessor für Neuronale Schnittstellen an der Universität Maastricht.
Denn Wissenschaftlerinnen und Wissenschaftler bemühen sich schon seit Längerem, die Bewegungsbefehle aus dem Motorkortex zu nutzen. Am Anfang stand dabei der Wunsch im Vordergrund, Gelähmten zu ermöglichen, mit der Kraft ihres Willens Arm- oder Beinprothesen zu steuern. »Als man dazu Elektroden in das Gehirn der Betroffenen implantierte, erkannten Forscher wie Sergey Stavisky schnell, dass dort auch Signale entstehen, wenn die Patientinnen und Patienten sprechen«, sagt Herff.
Dass sich diese Spannungsschwankungen heute meist korrekt interpretieren lassen, ist unter anderem der dramatischen Verbesserung der Maschinenlernverfahren in den letzten Jahren zu verdanken. In der Software, die Casey Harrel nutzt, sind gleich drei solche Algorithmen hintereinandergeschaltet. Bei dem ersten handelt es sich um ein sogenanntes rückgekoppeltes neuronales Netz (RNN). RNNs sind sehr gut darin, sequenzielle Daten zu interpretieren, bei denen die Reihenfolge der Informationen eine Rolle spielt – in diesem Fall die Befehle für Kehlkopf, Lippen und Zunge, die das Gehirn in einem exakt orchestrierten Ablauf produziert.
Während einer Trainingsphase musste der US-Amerikaner versuchen, verschiedene vorgegebene Sätze zu sprechen. Das RNN lernte dabei, aus den in seinem Motorkortex generierten Signalen auf das Phonem zu schließen, das er artikulieren wollte. Phoneme sind, vereinfacht gesagt, die kleinsten Lautbausteine, aus denen Wörter bestehen. Wenn Harrell nun etwas Neues zu sagen versucht, berechnet das RNN alle 80 Millisekunden, welche Phoneme am wahrscheinlichsten gemeint sind.
Welcher Satz erscheint am plausibelsten?
Ein Sprachmodell schätzt dann als zweiter Algorithmus anhand der bereits gesprochenen Phoneme und ihrer Wahrscheinlichkeiten ab, welches Wort Harrell vermutlich sagen will. Daran schließt sich ein weiteres Sprachmodell an, das mit zahllosen englischen Sätzen gefüttert wurde und ein Vokabular von 125 000 Wörtern umfasst. Es übersetzt die ursprünglich vorhergesagte Wortsequenz in den Satz, der ihm aufgrund seines Trainings am plausibelsten erscheint. Dadurch bügelt es auch Fehlinterpretationen der vorherigen Algorithmen aus. Das funktioniert ähnlich wie die »intelligente« Tastatur auf einem Smartphone, die nach Eingabe eines Worts vorschlägt, wie der Satz weitergehen könnte.
Dieses zweite Sprachmodell trage maßgeblich zur hohen Trefferquote der Neuroprothese bei, betont Rüdiger Rupp vom Universitätsklinikum Heidelberg. »Der Algorithmus nutzt bildlich gesprochen die gesammelte Erfahrung des Internets, um zu erkennen, was der Betroffene sagen möchte.« Durch eine von einer Kamera registrierte Augenbewegung kann Harrell signalisieren, dass der Satz auf dem Bildschirm komplett und korrekt ist. Eine KI-gestützte Text-to-Speech-Software liest ihn dann vor.
»Wenn Menschen mit einer computergenerierten Stimme sprechen, die sich für sie völlig fremd anhört, fühlen sie sich damit nicht verbunden«Rüdiger Rupp, Professor für Assistive Neurotechnologie
Und das sogar in einer Stimme, die seiner eigenen aus der Zeit vor der Erkrankung ziemlich ähnelt: Die Fachleute haben dazu den Text-to-Speech-Algorithmus mit alten Videoausschnitten und Tonaufnahmen des Mannes trainiert. »Es ist nachgewiesen, dass das einen ganz großen Einfluss auf die Akzeptanz solcher Systeme haben kann«, betont Rupp. »Wenn Menschen dagegen mit einer computergenerierten Stimme sprechen, die sich für sie völlig fremd anhört, fühlen sie sich damit nicht verbunden.« Tatsächlich sei Harrell emotional tief bewegt gewesen, als er das erste Mal mit eigener Stimme sprach, schreibt das Team in seiner Publikation. Eine seiner ersten Äußerungen sei ein »I’m so fucking back« (sinngemäß: Ich bin verdammt noch mal wieder da) gewesen.
Ein Nachteil der von ihm genutzten Technologie ist momentan noch, dass die Sprachausgabe mit Verzögerung erfolgt. Nutzerinnen und Nutzer müssen mindestens ein komplettes Wort erzeugen, bevor sie es sprechen lassen können. Meist formulieren sie sogar einen ganzen Satz, bevor sie ihn ans Text-to-Speech-Modell schicken. Das reduziert zwar die Fehlerrate – die Sprachmodelle spielen ihre Stärke gerade dann besonders gut aus, wenn sie möglichst viel des vorher Gesagten in ihre Analyse einbeziehen können und so den Kontext kennen. Allerdings gibt es dadurch immer einen Zwischenschritt: den geschriebenen Text, der nachträglich vertont wird.
Plättchen mit 253 Elektroden auf der Hirnrinde
Bei anderen Ansätzen erzeugt dagegen ein KI-Modell aus den elektrischen Signalen im Motorkortex direkt den dazu passenden Laut. Ein Team von Forscherinnen und Forschern der University of California in San Francisco und Berkeley hat dazu im März 2025 eine aufschlussreiche Studie veröffentlicht. Testperson war eine Frau, die durch einen Hirnstamminfarkt ihr Sprechvermögen verloren hatte. In einer Operation hatte man ihr eine Art Pflaster mit 253 Elektroden auf der Hirnrinde befestigt. Es war etwa so groß wie ein Viertel eines Zehneuroscheins und überdeckte neben dem Motorkortex auch noch angrenzende Bereiche. Die abgedeckte Fläche ist also viel größer als bei den vier Mikroelektroden-Arrays in Harrels Kopf. Ein Nachteil ist, dass jede Elektrode die Aktivität vieler Nervenzellen zugleich erfasst.
Die Patientin sollte sich nun bemühen, verschiedene Sätze nachzusprechen, die vor ihr auf einem Bildschirm erschienen. Eine entsprechend trainierte KI-Software erzeugte aus den Spannungspulsen in ihrem Gehirn die zugehörigen Laute und gab sie nahezu direkt wieder. Die Frau erreichte damit eine Sprechgeschwindigkeit von 47 Wörtern pro Minute; sie war also nicht wesentlich schneller als Harrel. Dennoch sollten sich auf diese Weise viel natürlichere Gespräche führen lassen, als wenn das Gegenüber immer erst zehn Sekunden auf eine Antwort warten muss. Allerdings war das Gesagte oft nicht gut zu verstehen: Testzuhörer konnten fast 60 Prozent der Wörter nicht korrekt identifizieren.
Praxisreif ist die Technologie also noch nicht. Dennoch zeigt die Studie, wohin die Reise in Zukunft gehen könnte. »Gegenüber Ansätzen, die zunächst geschriebenen Text erzeugen und diesen dann vorlesen, hat sie große Vorteile«, erklärt Surjo Soekadar, Professor für klinische Neurotechnologie an der Charité in Berlin. »Denn perspektivisch erlaubt sie es den Betroffenen auch, ihre Stimme präzise zu modulieren – etwa wenn sie eine Frage stellen oder ein Gefühl ausdrücken möchten. Das ist genau das, wo wir hinwollen.«
Gehirn steuert Mimik von Computer-Avataren
Bei einer Unterhaltung kommt es schließlich nicht nur darauf an, was wir sagen, sondern auch darauf, wie wir es sagen. So kann die Art und Weise, in der wir einen Satz betonen, seinen Sinn komplett verändern. Ein »Ich habe dich nicht bestohlen« hat eine ganz andere Bedeutung als ein »Ich habe dich nicht bestohlen«. Betonung, Lautstärke, Stimmhöhe oder Sprechpausen zählen zu den sogenannten paralinguistischen Merkmalen. Aus ihnen kann unser Gegenüber etwa ablesen, ob wir etwas ernst meinen oder einen Witz machen – zumal, wenn wir das Gesagte mit dem passenden Gesichtsausdruck begleiten. Die Arbeitsgruppen aus San Francisco und Berkeley entwickeln daher zusätzlich computergesteuerte Avatare: 3D-Figuren, die ihre Mimik je nach Art der Signale aus dem Motorkortex verändern.
Das Team um Sergey Stavisky arbeitet ebenfalls an Verfahren, die Steuerungssignale aus der Hirnrinde unmittelbar in Sprache umzuwandeln. In einer Studie, in der Casey Harrel diese »brain-to-speech«-Methode nutzte (der herkömmliche Ansatz heißt dagegen »brain-to-text«), verstanden Zuhörer fast 60 Prozent seiner Worte. Harrel konnte zudem einfache Melodien aus drei Tönen singen und Satzteile beliebig betonen. Allerdings hingen die Resultate auch davon ab, wie konzentriert der Patient war. Die Beteiligten hoffen, dass sich die Ergebnisse verbessern, wenn mehr Elektroden implantiert und die KI-Algorithmen verfeinert werden.
Die Medizin könnte also zumindest manchen Menschen mit schweren Sprechstörungen in Zukunft helfen. Dennoch sind noch viele Fragen ungeklärt. Eine davon betrifft die Nutzungsdauer: Wie lange hält ein Hirnimplantat und wovon hängt das ab? Mikroelektroden-Arrays etwa wurden 2004 zum ersten Mal verbaut. Die seitdem gesammelten Erfahrungen sind gemischt: Einige Arrays stellten nach Monaten ihre Arbeit ein, andere funktionierten noch nach sieben Jahren.
Fehlermeldungen direkt aus dem Gehirn
Problematisch ist auch, dass die Elektroden immer wieder minimal ihre Lage verändern, da sich das Gehirngewebe durch Drehungen des Kopfes oder allein schon durch den Herzschlag permanent bewegt. Dadurch kann es vorkommen, dass sie verstärkt Signale von Neuronen empfangen, auf die der KI-Algorithmus gar nicht trainiert wurde. Die Fehlerrate der Prothese steigt daher im Lauf der Zeit deutlich an – es sei denn, die Betroffenen absolvieren zwischendurch Trainingssessions. Stavisky und sein Team rechnen diese Einflüsse mit einem weiteren KI-Algorithmus heraus. Zudem nutzen sie die Tatsache, dass Harrell korrekte Sätze stets quittieren muss, um sie an die Sprachausgabe zu schicken. Dadurch wird die Software ständig nachkalibriert.
In Zukunft könnte die Rekalibrierung noch einfacher werden. Denn die Forscherinnen und Forscher haben im Motorkortex inzwischen Signale gefunden, die nach einem Fehler auftreten. Wenn Harrell etwa sieht, dass das Sprachmodell »Sohn« statt »Sonne« auf dem Bildschirm ausgibt, feuern bei ihm bestimmte Nervenzellen. Die Ergebnisse sind allerdings noch nicht veröffentlicht, sondern lediglich als Preprint erschienen. Falls sie sich bestätigen, sollte sich die neuronale Signatur als Feedback für den KI-Algorithmus nutzen lassen, der dadurch ständig aus seinen Fehlern lernt.
Völlig unklar ist noch die wohl wichtigste Frage: welche Patientinnen und Patienten von der Technologie überhaupt profitieren können. Schaut man sich die jüngsten Studien zu Sprach-Neuroprothesen an, so fällt auf, dass sie meist die Ergebnisse einzelner Nutzer vorstellen. Neben Casey Harrell gibt es bislang eine weitere Person, die Mikroelektroden-Arrays in ihrem Gehirn trägt und deren Resultate veröffentlicht wurden. Bei ihr identifizierte die Software 75 Prozent der gesprochenen Worte korrekt, also deutlich weniger als bei Harrell. Ihr waren aber lediglich zwei der vier Arrays in den Motorkortex implantiert worden. Außerdem seien die KI-Algorithmen seitdem verbessert worden, schreibt Stavisky auf eine Mailanfrage.
Sprach-Neuroprothesen bislang nicht für viele verfügbar
Zwei weitere Betroffene tragen ebenfalls ähnliche Sprach-Neuroprothesen wie Harrell; bislang wurde allerdings nicht offengelegt, wie gut sie bei ihnen funktionieren. Ob es noch mehr Testpersonen gibt und wie sie mit den Implantaten zurechtkommen, möchte der US-Forscher nicht kommentieren. »Die aktuell veröffentlichten Resultate sind wirklich großartig, das möchte ich auf keinen Fall herunterreden«, betont Surjo Soekadar von der Charité in Berlin. »Ich habe gleichzeitig den Eindruck, dass insbesondere kommerzielle Akteure besonders eindrucksvolle Beispiele hervorheben, um die Finanzierung von Folgeprojekten zu erleichtern und gezielt Personalmarketing zu betreiben.«
Tatsächlich sei die Methode momentan noch äußerst kostspielig, erklärt Christian Herff. »Schon viel unkompliziertere Hirnoperationen verschlingen heute gerne 50 000 Euro oder mehr«, sagt er. »Bei Casey Harrell sind in die Implantation, Entwicklung und das Training der Modelle und die weitere Betreuung bestimmt eine halbe Million Euro geflossen.« Der Neurowissenschaftler Sergey Stavisky hält diese Summe auf Nachfrage zwar für realistisch. Er gibt aber zu bedenken, dass ein großer Teil davon Entwicklungskosten seien. Eine kommerziell hergestellte Sprach-Neuroprothese werde voraussichtlich deutlich günstiger sein: »Ich glaube, dass die Kosten vergleichbar sein werden mit denen anderer kommerziell erhältlicher Neurotechnologien, die in den USA von der Krankenversicherung übernommen werden.«
»Ich glaube, dass die Kosten vergleichbar sein werden mit denen anderer kommerziell erhältlicher Neurotechnologien, die in den USA von der Krankenversicherung übernommen werden«Sergey Stavisky, Neurowissenschaftler
Auch an anderer Stelle gibt es noch Unwägbarkeiten: ALS ist eine relativ seltene Erkrankung, ebenso wie Hirnstamminfarkte. Am häufigsten verlieren Menschen dagegen nach einem Schlaganfall die Sprache. Meist ist bei diesen Patientinnen und Patienten allerdings genau jene Region geschädigt, auf die die heutigen Implantate typischerweise zugreifen: der Motorkortex. Es ist daher nicht sonderlich wahrscheinlich, dass die aktuell entwickelten Technologien dieser großen Personengruppe helfen können.
Jedoch wird Sprache längst nicht nur dort verarbeitet. Der bereits erwähnte Neurowissenschaftler Christian Herff von der Universität Maastricht hat zwei interessante Studiendazu geleitet. Versuchspersonen waren Patientinnen und Patienten mit Epilepsie, denen man zur Lokalisierung des Anfallherdes Elektroden ins Gehirn implantiert hatte. Sie sollten vorgegebene Wörter oder Sätze sprechen, während man ihre Hirnströme aufzeichnete. Da die Elektroden bei jeder Testperson in anderen Regionen saßen, ergab sich damit ein umfassendes Bild, wie sich dabei die Aktivität des gesamten Gehirns ändert.
Die Fachleute stießen so auf einige Gebiete, die sich möglicherweise ebenfalls für die Implantation von Sprach-Neuroprothesen eignen würden. Eine davon ist der auditorische Kortex – jener Bereich der Hirnrinde, der Gehörtes verarbeitet. »Wenn wir sprechen, wird immer auch eine Kopie der muskulären Befehle an den auditorischen Kortex geschickt«, sagt Herffs Berliner Kollege Surjo Soekadar. Mit ihrer Hilfe können wir das, was wir sagen wollen, mit dem abgleichen, was tatsächlich über unsere Lippen kommt.
Aus der Hirnaktivität auf die Handlung einer Geschichte schließen
»Es ist daher gut möglich, dass Sprach-Neuroprothesen auch in diesem Bereich funktionieren würden«, sagt Herff. »Eventuell müssten wir uns dann nicht bemühen, etwas zu sagen, sondern uns vorstellen, etwas zu hören.« Große Hoffnung setzen Neurowissenschaftler zudem auf die Decodierung semantischer Informationen. Die KI würde dann nicht mehr vorhersagen, welches Wort die betroffene Person exakt sprechen möchte, sondern welchen Inhalt sie zum Ausdruck bringen will.
Tatsächlich können moderne KI-Verfahren schon heute aus der Hirnaktivität einer Person, die eine Geschichte hört, eine ungefähre Vorstellung von der Handlung gewinnen. Das zeigt etwa eine Studie, in der Hirnscanner-Daten gesunder Testpersonen ausgewertet wurden. Dabei ist das genutzte Verfahren, die funktionelle Magnetresonanztomografie, sehr langsam: Es registriert, wie sich die Durchblutung von Hirnbereichen über den Verlauf vieler Sekunden ändert. Hirnimplantate sind deutlich schneller; sie gewähren daher eventuell noch tiefere Einblicke in das Denken.
Techvisionäre wie Elon Musk wittern in den Neuroprothesen ein großes Geschäft. Die von ihm gegründete Firma Neuralink möchte ab 2031 jährlich 20 000 Hirnimplantate verbauen. »Das soll dann automatisch über Operationsroboter erfolgen«, erklärt Surjo Soekadar. »Ich halte diese Zahl daher nicht für unrealistisch.« Bis dahin werden die Prothesen ihre Daten vermutlich per WLAN oder 6G versenden. Die Hardware könnte so klein sein, dass sie sich problemlos im Rollstuhl mitnehmen lässt.
Wie wird sichergestellt, dass die Neuroprothesen nicht die intimsten Gedanken der Nutzerinnen und Nutzer entschlüsseln und preisgeben?
Der Berliner Wissenschaftler warnt davor, dass aufgrund der Rasanz der technischen Entwicklung ethische und rechtliche Fragen auf der Strecke bleiben könnten. »Es ist heute noch nicht einmal geklärt, wem die trainierten Modelle eigentlich gehören – der Firma oder den Betroffenen«, sagt er. Zudem berühren Neuroprothesen auch wichtige Aspekte des Datenschutzes: Wie wird sichergestellt, dass sie nicht die intimsten Gedanken der Nutzerinnen und Nutzer entschlüsseln und preisgeben?
Bestimmte Mechanismen in unserem Gehirn stellen sicher, dass uns nicht alles über die Lippen kommt, woran wir gerade denken. Doch wie kann garantiert werden, dass sich eine Sprach-Neuroprothese daran hält? Und selbst wenn sie schweigt, könnten die Geheimnisse der Patientinnen und Patienten noch irgendwo aufgezeichnet und abgespeichert werden. Das alles sind Aspekte, die die Entwickler möglichst jetzt schon berücksichtigen sollten, meint Soekadar. Damit die Gedanken auch in Zukunft frei sind.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.