Wahrnehmung: Sinnvolle Vorhersage

Ständig stürmen Informationen aus aller Menschen Sinne auf das Gehirn ein. Wie geht es mit dem Datenwust um? Es wäre schon rein zeitlich gesehen ein unvorstellbarer Aufwand, alles zu sortieren und zu kombinieren. Dementsprechend wählt es bei der Sprachverarbeitung auch lieber orakelnde Wege.

Antje Findeklee

Was hatte der Mann am Telefon gerade gesagt? Kaste? Paste? Oder doch Taste? Erschließt sich die Bedeutung nicht aus dem Zusammenhang, bleibt häufig nur raten. Wie viel einfacher verstehen wir dagegen ein Gegenüber, wenn wir gleichzeitig seine Mundbewegungen sehen. Und wie sehr irritiert es uns, wenn Gesehenes und Gehörtes nicht übereinstimmen – und sei es nur, weil bei Auslandskorrespondenten Ton- und Bildspur knapp versetzt laufen. Noch interessanter wird es, wenn das Gesicht auf dem Bildschirm ein 'ga' mit den Lippen formt, während wir ein 'ba' hören. Im diesem Fall werden die beiden Informationen dann sogar zu einer ganz neuen Bedeutung vermischt – fast immer einem 'da', ein Effekt, den die Psychologen Harry McGurk und John MacDonald bereits 1976 beschrieben hatten.

Doch wann und wie wirken visuelle und akustische Signale zusammen? Werden sie getrennt in spezialisierten Zentren verarbeitet und erst schlussendlich zusammengeführt? Oder beeinflussen sie sich bereits gleich zu Beginn? Virginie van Wassenhove von der Universität von Maryland und ihre Kollegen beschäftigten zur Beantwortung dieser Fragen nun Augen und Ohren von 26 Freiwilligen. Sie maßen dabei das zeitliche Auftreten und die Stärke der Gehirnströme, während sie ihren Teilnehmern Videoaufnahmen einer Frau vorspielten, die deutlich mundgymnastisch 'ka', 'pa' oder 'ta' artikulierte. Dies lief zum einen als Stummfilm oder aber unterlegt mit den passenden Lauten. Um den Einfluss der visuellen Information aufzudecken, spielten die Wissenschaftler den Probanden auch die Silben allein vor, ohne Video. Und zusätzlich überprüften sie noch den McGurk-Effekt, indem sie das 'pa' der Dame mit einem 'ka' intonierten.

Vier Umstände also, anhand derer sich das Wann und Wie des Sinnesreize-Wechselspiels zeigen sollten. Und tatsächlich offenbarten sich zwei Effekte: Sahen die Teilnehmer das Video zu den Tönen, erschienen zwei für die Verarbeitung von Audiosignalen typische ereigniskorrelierte Potenziale zum einen früher und zum anderen deutlich abgeschwächt. Auch bei der McGurk-Kombination fiel die Amplitude geringer aus, doch die beschleunigte Aktivität fehlte.

Was bedeutet dies nun für das Modell der Sprachverarbeitung? Hier ist zum einen zu berücksichtigen, dass ein Sprecher geringfügig früher das Gesicht bewegt, bevor wir den dazugehörigen Laut vernehmen – die visuelle Information kommt also etwas zeitiger an als die akustische. Der vom Zuhörer noch tolerierte zeitliche Versatz kann dabei bis zu 250 Millisekunden betragen. Allerdings ist das Gesehene nicht unbedingt eindeutig: Ein 'pa' könnte genausogut ein 'ba' oder ein 'ma' sein. Trotzdem aber engt es das Spektrum an Lauten ein, mit denen wir zu rechnen haben.

Und genau diese vorhersagbare Auswahl macht sich unser Gehirn offenbar zu Nutze, meinen die Forscher. Denn im Falle der am wenigsten eindeutigen Mundbewegung – des 'ka's – kam die Reaktion des Hörsinns zwar immer noch beschleunigt, aber deutlich später als bei dem besser zu deutenden 'ta' und vor allem dem von allen Teilnehmern visuell immer richtig erkannten 'pa' – ein Zeichen dafür, dass hier vor dem Erkennen des 'ka's auch seitens des Hörsinns wohl mehr Arbeit zu leisten war. Untermauert wird dies dadurch, dass dieser Beschleunigungseffekt bei der McGurk-Variante fehlt: Passt das Gehörte nicht ins Raster des Erwarteten, dauert es entsprechend, bis der richtige Laut gefunden ist.

Warum aber fallen die ereigniskorrelierten Potenziale schwächer aus, wenn visuelle und akustische Reize kombiniert werden? Liegt es daran, dass die Verarbeitung des Gehörten konkurrieren muss mit den von den Augen gelieferten Eindrücken? Ein weiteres Experiment zeigt deutlich: nein. Denn als sich die Teilnehmer bewusst auf die visuelle Information konzentrieren sollten, ging das Ausmaß der ereigniskorrelierten Potenziale für die Audioverabeitung nicht noch weiter zurück. Diese Dämpfung als Ausdruck erleichterter Verarbeitung lässt sich offenbar nicht bewusst steuern, sondern läuft rein automatisch, egal welchem Sinn gerade besondere Aufmerksamkeit gewidmet wird – auch wenn es sich um verwirrende Eindrücke wie bei der McGurk-Kombination handelte.

Die Vorgehensweise des Denkorgans klingt einleuchtend, weil Arbeit sparend: Jeder eintreffende Reiz wirkt als Vorhersageinstrument für kommende Informationen. Erleichtert durch diese innere, eingegrenzte Erwartung wird dann die Verarbeitung weiterer Reize beschleunigt – es muss nur noch abgeglichen werden, ob das Erwartete auch tatsächlich eintrifft. Dieses Modell allerdings widerspricht anderen Ergebnissen, in denen andere Forscher schlicht eine starke Überlagerung der jeweiligen Verarbeitungssignale beobachtet hatten. Sie zogen daher den Schluss, dass kombinierte Reize aus verschiedenen Sinnen eine Reaktion hervorrufen, die mehr als die Summen der Einzelteile darstellt.

Doch könnte die Erklärung hierfür ganz einfach sein: In jenen Experimenten hatten Forscher Töne an Kreisfiguren gekoppelt – etwas, das mit der Verarbeitung von Sprache eigentlich wenig zu tun hat und eher eine Ausnahmesituation darstellt, betonen van Wassenhove und ihre Kollegen. Sprache, wahrgenommen als Mundbewegungen und Laute, ist dagegen ein sehr altes Element des menschlichen Daseins und engstens mit seiner Entwicklung verknüpft. Dass die kombinierte Verarbeitung visueller wie akustischer Sprachinformationen daher einen eigenen optimierten Weg gefunden hat, ist wohl kaum verwunderlich.