Direkt zum Inhalt
Login erforderlich
Dieser Artikel ist Abonnenten mit Zugriffsrechten für diese Ausgabe frei zugänglich.

Statistik: Ein signifikanter Irrtum

Mit Hilfe des "p-Werts" beurteilen Forscher seit Jahrzehnten, wie aussagekräftig ihre Studienergebnisse sind. Doch wer sich allein auf diese Kennzahl verlässt, verfällt in pseudowissenschaftliches Denken.
Magische ZahlLaden...

Für einen kurzen Augenblick stand Matt Motyl an der Schwelle zum wissenschaftlichen Ruhm. 2010 entdeckte er bei einem Experiment, dass Extremisten die Welt in Schwarz und Weiß sehen – und das buchstäblich. Die Ergebnisse waren "völlig eindeutig", erinnert sich der Psychologiedoktorand von der University of Virginia in Charlottesville. Seine Studie an fast 2000 Probanden hatte ergeben, dass links- oder rechtsextrem eingestellte Menschen feine Grauschattierungen schlechter wahrnehmen können als solche mit gemäßigteren politischen Ansichten.

"Die Hypothese war nicht nur sexy", sagt ­Motyl, "sie wurde auch von den Daten gestützt." Das zeigte sich, als er den p-Wert errechnete – die übliche Art, die Aussagekraft eines statistischen Befunds zu beziffern. Er lag bei 0,01, das gilt als "hoch signifikant". Damit schien die Veröffentlichung in einer hochrangigen wissenschaftlichen Fachzeitschrift zum Greifen nah.

Doch Motyl und sein Betreuer Brian Nosek wollten auf Nummer sicher gehen und wiederholten das Experiment noch einmal. In der zweiten Studie mit 1300 Probanden sprang der p-Wert auf 0,59. Das liegt weit jenseits der Schwelle von 0,05, bis zu der ein Ergebnis als statistisch ­signifikant gilt. Mit dem Effekt verblasste Motyls Traum vom frühen wissenschaftlichen Ruhm.

Dabei waren weder die zuerst erhobenen Daten fehlerhaft noch war dem jungen Forscher ein Rechenfehler unterlaufen. Vielmehr illustriert dieses Beispiel, dass blindes Vertrauen in den p-Wert problematisch ist. Die Kennzahl ist nämlich keineswegs so verlässlich oder aussagekräftig, wie viele Wissenschaftler denken. "P-Werte leis­ten nicht, was sie sollen, weil sie das gar nicht können", sagt der Ökonom Stephen Ziliak von der Roosevelt University in Chicago, ein bekannter Kritiker des Verfahrens.

Schon vor einigen Jahren entbrannte eine Diskussion über die Replizierbarkeit von Studien­ergebnissen, also darüber, wie viele Befunde einer erneuten Überprüfung standhalten würden. Fälle wie Motyls, die den allgegenwärtigen p-Wert in Frage stellen, gießen zusätzlich Öl ins Feuer.

John Ioannidis, Epidemiologe an der Stanford University, hatte den Stein 2005 ins Rollen gebracht ...

9/2014

Dieser Artikel ist enthalten in Gehirn&Geist 9/2014

Kennen Sie schon …

Highlights 3/2019

Spektrum der Wissenschaft – Highlights 3/2019: Vorsicht Statistik!

Universelle Gesetze: Zentraler Grenzwertsatz und Zufallsmatrizen • Superlative: Sportliche Höchstleistungen und Hitzewellen • Fehlschlüsse: Missbrauch des p-Werts und mangelnde Reproduzierbarkeit

23/2019

Spektrum - Die Woche – 23/2019

In dieser Ausgabe widmen wir uns einem kuriosen Experiment, Erdbeben und Walen.

12/2019

Spektrum - Die Woche – 12/2019

In dieser Ausgabe widmen wir uns Tsunamis, dem Trinkwasser und Gesichtern.

Lesermeinung

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Lesermeinungen können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

  • Quellen

Cacioppo, J. T. et al.: Marital Satisfaction and Break-ups Differ Across On-line and Off-line Meeting Venues. In: Proceedings of the National Academy of Sciences of the USA 110, S. 10135-10140, 2013

Campbell, J. P.: Editorial: Some Remarks From the Outgoing Editor. In: Journal of Applied Psychology 67, S. 691-700, 1982

Goodman, S. N.: A Comment on Replication, P‐Values and Evidence. In: Statistics in Medicine 11, S. 875-879, 1992

Goodman, S. N.: Toward Evidence-Based Medical Statistics 1: The P Value Fallacy. In: Annals of Internal Medicine 130, S. 995-1004, 1999

Goodman, S. N.: Of P-Values and Bayes: A Modest Proposal. In: Epidemiology 12, S. 295-297, 2001

Ioannidis, J. P. A.: Why Most Published Research Findings Are False. In: PLoS Medicine 2, e124, 2005

Lambdin, C.: Significance Tests as Sorcery: Science is Empirical - Significance Tests are not. In: Theory & Psychology 22, S. 67-90, 2012

Nosek, B. A. et al.: Scientific Utopia II: Restructuring Incentives and Practices to Promote Truth Over Publishability. In: Perspectives on Psychological Science 7, S. 615-631, 2012

Simmons, J. P. et al.: False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. In: Psychological Science 22, S. 1359-1366, 2011

Simonsohn, U. et al.: P-Curve: A Key to the File-Drawer. In: Journal of Experimental Psychology: General 143, S.534-547, 2014