Hirnforschung: Auf wackligen Füßen

Die Funde der Neurowissenschaften wirken oft beeindruckend. In Wahrheit sind sie vielfach trügerisch, wie genaue Analysen der publizierten Fachliteratur zeigen.

Christian Wolf

Hirnscans an einer Leuchtwand — © Sved Oliver / stock.adobe.com (Ausschnitt)

Bescheidenheit ist nicht unbedingt eine Tugend der Neurowissenschaften. Nichts weniger als das vollständige menschliche Gehirn zu simulieren, hat sich beispielsweise das von der EU geförderte "Human Brain Project" vorgenommen. Andere Forschungsprojekte versuchen die Nichtexistenz des freien Willens zu beweisen oder die neuromolekularen Ursachen von komplexen psychischen Erkrankungen zu entdecken. Doch in vielen Fällen steckt hinter den großen Ambitionen und Erklärungsansprüchen eine eher dünne Datenlage. Das kritisiert etwa der Pharmakologe Felix Hasler von der Berlin School of Mind and Brain der Humboldt-Universität zu Berlin in seinem aktuellen Buch "Neuromythologie" [1].

Auf welch wackligen Füßen viele neurowissenschaftliche Erkenntnisse stehen, wurde erst kürzlich wieder deutlich. Forscher um die biologische Psychologin Katherine Button von der University of Bristol nahmen rund 50 neurowissenschaftliche Metaanalysen unter die Lupe [2]. Auf diese Weise konnten sie mehrere hundert Einzelstudien erfassen, darunter Bildgebungs- und Tierstudien. Das Team um Button interessierte sich für die so genannte statistische Aussagekraft. Dabei handelt es sich um die Fähigkeit einer Studie, einen Zusammenhang beispielsweise zwischen einer Hirnaktivität und einer geistigen Tätigkeit aufzudecken - sofern er tatsächlich besteht.

Trügerische Bilder | Bilder von klar umrissenen Aktivitätszentren im Hirn, wie sie sich mit Hilfe der funktionellen Magnetresonanztomografie erstellen lassen, wirken wie ein glasklarer Beleg. Tatsächlich stehen hinter einer solchen Aufnahme mitunter zweifelhafte Annahmen, die das Ergebnis beeinflussen.

In den von Button und ihren Kollegen untersuchten Studien war die statistische Aussagekraft äußerst mau. Im Schnitt lag sie bei mageren 20 Prozent. Das heißt letztlich: Voraussichtlich nur in einem von fünf Fällen kann ein echter Zusammenhang auch tatsächlich gefunden werden. Doch das ist noch nicht alles. Eine Studie mit schwacher statistischer Aussagekraft stößt auch leichter auf Zusammenhänge, die überhaupt nicht da sind. Das Fazit von Katherine Button fiel daher ernüchternd aus: "Viele Studien können gar nicht eindeutige Antworten auf die Fragen geben, die sie untersuchen. Und manche behaupteten Entdeckungen sind wahrscheinlich falsch oder unzuverlässig."

Maue Aussagekraft

Grund für die schwache Aussagekraft ist ein altes Manko vieler Hirnforschungsstudien: Die Zahl der Probanden ist zu klein. Größere Studien mit vielen Versuchspersonen haben eine größere statistische Power. Sie können auch kleinere Effekte - weniger stark ausgeprägte Zusammenhänge - entdecken. "Neurowissenschaftler hingegen müssten eigentlich auf Grund der typischerweise sehr kleinen Effektstärken auf große Probandenzahlen zurückgreifen", sagt Felix Hasler. Dies werde aber aus wissenschaftspraktischen und finanziellen Gründen kaum getan.

Besonders gefährlich ist eine schwache statistische Aussagekraft bei Studien, die mit neuen Entdeckungen aufwarten. Selbst wenn sie einen echten Zusammenhang aufdecken, neigen sie aus statistischen Gründen dazu, ihn künstlich aufzublähen. "Die Replikation, also die Wiederholung und Bestätigung von Ergebnissen, ist für die Forschung daher besonders grundlegend", sagt Henrik Walter, Psychiater und Neurologe von der Charité-Universitätsmedizin Berlin.

Schwierige Wiederholung

Doch genau hier hapert es in den Neurowissenschaften. Zu diesem Schluss kamen 2010 die Psychologen Craig Bennett und Michael Miller von der University of California in Santa Barbara [3]. Sie sahen Studien mit funktioneller Magnetresonanztomografie (fMRT) durch, die untersucht hatten, ob sich die eigenen Messergebnisse reproduzieren ließen. Beispielsweise hatte man in einer Studie wiederholt dieselben Probanden in die Röhre geschoben und sie währenddessen einem Test der visuellen Aufmerksamkeit unterzogen.

Das Ergebnis von Bennett und Miller fiel desillusionierend aus: Wies ein Messpunkt beim ersten Scan eine relevant erhöhte Hirntätigkeit auf, so ließ sich dies im zweiten Durchgang nur in durchschnittlich rund 30 Prozent der Fälle reproduzieren. Selbst bei denselben Probanden bei der gleichen Aufgabe kam oft zweimal etwas anderes heraus. Und auch die jeweils verwendeten Scanner ließen die Ergebnisse voneinander abweichen.

"Leider sind Replikationen in den Neurowissenschaften nicht ganz einfach", bestätigt Henrik Walter. "Es gibt hier viele Einflussgrößen. Es kommt unter anderem darauf an, wann ich die Probanden messe, welches Geschlecht sie haben und wie das verwendete Paradigma konstruiert ist." Man könne hier leicht - vermeidbare - handwerkliche Fehler begehen. Entscheidender aber noch: Viele experimentelle Faktoren lassen sich kaum kontrollieren. Schon wenn ein Proband im Scanner unaufmerksam und gereizt ist, weil er einen schlechten Tag hat, kann dies zu einer veränderten Hirnaktivierung führen und das Messergebnis beeinflussen.

"Bei ganz einfachen fMRT-Aufgaben ist die Messwiederholung noch einigermaßen brauchbar", sagt Hasler, "beispielsweise bei der Untersuchung der Bewegungssteuerung." Solche motorischen Prozesse seien ja auch relativ präzise im Gehirn zu lokalisieren. "Bei komplexeren Phänomenen wie etwa der romantischen Liebe fällt der Grad der Übereinstimmung aber ins Bodenlose." Ein weiteres Problem, mit dem Forscher zu kämpfen haben, ist das große Grundrauschen im Gehirn. Auch im Ruhezustand ist unser Denkapparat nämlich höchst aktiv. "Wenn dann eine spezifische Aktivierung dazukommt, liegt die Aktivitätsänderung im Bereich von nur wenigen Prozent", so Hasler. "Deshalb ist es schwierig, das gesuchte neuronale Korrelat etwa einer mathematischen Rechenleistung von der Hintergrundaktivität des Gehirns abzugrenzen."

Voodoo in den sozialen Neurowissenschaften

Umso mehr erstaunt dann die Tatsache, dass man in den so genannten sozialen Neurowissenschaften auch bei komplexen Phänomenen wie Emotionen immer wieder auf überraschend starke Korrelationen stößt. Das irritierte auch den Psychologen Edward Vul und seine Kollegen von der University of California in San Diego. Daraufhin veröffentlichten sie 2009 eine Studie, die hohe Wellen in der Fachwelt schlug und hitzige Debatten auslöste [4]. Bevor sie den Titel auf Wunsch der Fachzeitschrift änderten, lautete er: "Voodoo-Korrelationen in den sozialen Neurowissenschaften".

Das Team um Vul befragte die Autoren von mehr als 50 Studien, wie sie zu ihren erstaunlich hohen Korrelationen gekommen waren. Beispielsweise ging in einer Studie die Pein von sozialer Zurückweisung auffällig stark mit der Aktivität im anterioren zingulären Kortex einher. Das Ergebnis: In mehr als der Hälfte der Fälle hatten die beteiligten Wissenschaftler auf Verfahren zurückgegriffen, die die Korrelationen statistisch aufblähten.

Für Versuche mit fMRT teilt man für gewöhnlich das Gehirn in rund 130 000 Volumeneinheiten ein, so genannte Voxel. In den kritisierten Studien waren nun in die endgültige Datenauswertung letztlich gerade diejenigen Voxel geflossen, die zuvor eine hohe Korrelation zwischen neuronaler Aktivität und dem untersuchten psychischen Phänomen gezeigt hatten. Ein bisschen ist das so, als würde ein Revolverheld wahllos auf ein Scheunentor schießen. Danach zeichnet er die Zielscheibe um jene Einschusslöcher, die am nächsten beieinanderliegen. Ein paar Treffer sind dem Schützen damit auf jeden Fall sicher. "Nicht bei allen in der Untersuchung von Edward Vul beanstandeten Studien war dieser Vorwurf gerechtfertigt", relativiert Henrik Walter. "Aber die Diskussion hat dazu geführt, dass dieses Problem nun allgemein bekannt ist und dadurch heute größtenteils vermieden wird."

Tote zum Leben erwecken

Bei dem Versuch, aus einem Meer von Zufallsrauschen relevante Hirnsignale herauszufischen, lauern auch noch ganz andere Gefahren. Eine davon demonstrierten 2010 Craig Bennett und seine Kollegen mit einer äußerst humorvollen Studie [5]. Im Scanner ließen sie ihren Probanden Bilder von Menschen anschauen, die sich beispielsweise umarmten oder miteinander stritten. Die Versuchsperson sollte nun angeben, in welchem emotionalen Zustand sich die Personen befanden. Tatsächlich regte sich etwas im Gehirn des Probanden bei der Präsentation der Fotos.

Ganz so selbstverständlich war das allerdings nicht. Schließlich handelte es sich bei dem Probanden um einen toten Atlantischen Lachs. Hatten die Forscher nun eine wundersame geistige Leistung des mausetoten Fischs entdeckt? Natürlich nicht. Bei den Signalen handelte es sich um reine Zufallsprodukte. Die Wahrscheinlichkeit, dass von mehr als 100 000 gemessenen Volumeneinheiten einige davon ein falsches Signal liefern, sei beinahe 100 Prozent, so Bennett. Vermeiden lassen sich solche Zufallsfunde durch statistische Korrekturverfahren. Als Bennett und seine Kollegen diese anwandten, verschwanden auch alle trügerischen Signale aus dem toten Lachsgehirn. Doch solche Korrekturen hatten selbst in guten Fachjournalen zwischen 25 und 40 Prozent der Wissenschaftler nicht vorgenommen, so die Auswertung des Teams um Bennett.

"Man muss sich auch immer vor Augen halten: Ein Bild aus dem Hirnscanner ist nicht einfach ein wahrheitsgetreues Abbild der Hirnaktivitäten", betont Felix Hasler. Hinter dem Bild, das letztendlich verwendet wird, stecke eine ganze Kette von messtechnischen Entscheidungen und komplexen statistischen Berechnungen. "Wenn man irgendwo eine andere Entscheidung trifft, kann es sein, dass das Hirnbild ganz anders aussieht." Viele fMRT-Messergebnisse seien eher zufällige Artefakte als harte naturwissenschaftliche Daten.

Es sollten lieber weniger, dafür besser konzipierte Studien mit größeren Fallzahlen durchgeführt werden, rät Hasler deshalb. Dem stehe jedoch zum einen ein enormer Publikationsdruck entgegen, der dazu führt, dass unausgereifte Ergebnisse in die Öffentlichkeit getragen werden. Zum anderen täten sich Forscher und Journals noch immer viel zu schwer damit, negative Ergebnisse zu veröffentlichen - nicht nur gescheiterte Replikationen früherer Experimente, sondern auch Untersuchungen, die einen erwarteten Zusammenhang schlicht nicht belegen konnten. Infolgedessen griffen Wissenschaftler leider allzu oft, wie Hasler sagt, zur Strategie: "Torture your data until they confess!" - Malträtiere deine Daten so lange, bis sie gestehen. "In der Praxis geschieht dies beispielsweise dadurch, dass man verschiedenste statistische Verfahren auf die oft planlos erhobenen Messdaten anwendet, bis man irgendwo ein signifikantes Signal findet." Und das kann trügerisch sein.