Fehler in Lehrbüchern: Statistische Signifikanz falsch erklärt

Beim Interpretieren von p-Werten irren sich auch einige der in den USA meistverkauften psychologischen Einführungswerke. Häufig unterliegen sie dem gleichen logischen Fehlschluss.

von Christiane Gelitz

Eine Normalverteilung mit Cutoff-Werten an den Enden — © benjaminec / Getty Images / iStock (Ausschnitt)

Die richtige Definition ist aber auch wirklich kompliziert. Als »signifikant« oder »bedeutsam« gilt ein statistischer Befund gemeinhin, wenn der zugehörige p-Wert kleiner ist als 0,05. Und das bedeutet: »Unter der Annahme, dass die Nullhypothese zutrifft und die Studie unendlich oft wiederholt wird, indem eine Zufallsstichprobe aus derselben Population gezogen wird, dann werden weniger als fünf Prozent der Ergebnisse extremer ausfallen als das vorliegende Ergebnis.«

Gewiss haben das etliche Lehrbücher schon mit einfacheren Worten erklärt. Nur unterlaufen vielen von ihnen dabei verbreitete Irrtümer. Zu diesem Schluss kommen zumindest Psychologen in einer kleinen Feldstudie, der sie die eingangs zitierte Definition zu Grunde legen.

Das Team um David Stanley von der University of Guelph bei Toronto überprüfte am Beispiel von 30 Psychologielehrwerken, ob Studienanfänger den Begriff »statistische Signifikanz« korrekt vermittelt bekommen. In 28 der 30 Bücher – den Autoren zufolge waren es die meistverkauften in den USA und Kanada der Jahre 2017 und 2018 – wurde der Begriff mindestens einmal definiert oder erklärt. Und von diesen enthielten 25 (rund 89 Prozent) mindestens einen Fehler.

Der mit Abstand häufigste lautete: Statistisch signifikant bedeute, dass die Wahrscheinlichkeit, dass ein Ergebnis zufallsbedingt zu Stande kommt, weniger als fünf Prozent beträgt. Warum das ein Irrtum ist, erkenne man am besten, indem man die der Berechnung zu Grunde liegende Bedingung vorwegstellt: »wenn die Nullhypothese zutrifft«. Die Nullhypothese ist die Annahme, dass kein Effekt vorliegt, also dass zum Beispiel zwei Merkmale nicht zusammenhängen. Unter dieser Voraussetzung ist es aber per Definition nicht möglich, dass die Nullhypothese nicht stimmt. Der p-Wert gibt als Signifikanzmaß vielmehr an, wie oft bei unendlich vielen Stichproben zufallsbedingt ein mindestens ebenso großer Effekt wie der vorliegende auftritt – obwohl es keinen gibt.

So offenbare sich auch ein weiterer Fehlschluss: »Ein statistisch signifikantes Ergebnis bestätigt die Forschungshypothese«, etwa die Annahme, dass zwei Merkmale zusammenhängen. Ebenso wenig lasse sich aus p < 0,05 ableiten, dass es mit 95-prozentiger Wahrscheinlichkeit einen Effekt gibt oder dass die Wahrscheinlichkeit, dass es keinen gibt, weniger als 5 Prozent beträgt.

Der Signifikanztest ist das verbreitetste statistische Kriterium für Forschungsbefunde in der Psychologie. Dass er von Studierenden ebenso wie Forschenden häufig falsch interpretiert werde, führen Stanley und seine Kollegen angesichts ihrer Lektüre zumindest teilweise auf Fehler in den Lehrwerken zurück. Wer immer noch auf eine einfache Definition hofft, kann sich an den britischen Statistiker Ronald Fisher halten: Stark vereinfacht gibt der p-Wert ihm zufolge an, wie gut sich ein vorliegendes Ergebnis mit der Nullhypothese vereinbaren lässt. Über die Wahrheit oder die Qualität der Studie verrät er aber nichts.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Artikel zum Thema