Direkt zum Inhalt
Login erforderlich
Dieser Artikel ist Abonnenten von Spektrum der Wissenschaft frei zugänglich.
Statistik

Der Fluch des p-Werts

Seit Jahrzehnten pflegt man die Bedeutung ("Signifikanz") eines statistischen Befunds mit einem aus den Daten zu berechnenden Zahlenwert einzuschätzen. Aber dieser "p-Wert" leistet nicht, was allgemein von ihm erwartet wird – zum Schaden für die Wissenschaft.
P-Hacking

Für einen kurzen Augenblick stand Matt Motyl an der Schwelle zum wissenschaftlichen Ruhm. Im Jahr 2010 entdeckte er bei einem Experiment, dass Extremisten die Welt in Schwarz und Weiß sehen – und das ganz buchstäblich.

Seine Ergebnisse waren "klar wie der helllichte Tag", erinnert sich der Psychologiedoktorand an der University of Virginia in Charlottesville. Seine Studie an 2000 Probanden ergab, dass die Links- oder Rechtsextremen unter den Teilnehmern diverse Grauschattierungen schlechter unterscheiden können als politisch moderater eingestellte Menschen.

Dann aber kam ihm die Realität in die Quere. Da Motyl und seinem Betreuer Brian Nosek der Streit über die mangelnde Reproduzierbarkeit wissenschaftlicher Studien geläufig war, wiederholten sie vorsichtshalber das Experiment. Mit den neuen Daten sprang der p-Wert auf 0,59 – weit jenseits der Schwelle von 0,05, unterhalb der ein Ergebnis als signifikant gilt. So verschwand der Effekt, und mit ihm Motyls Traum vom frühen Ruhm.

Wie sich später herausstellte, war dem Doktoranden nicht etwa eine mangelhafte Datenerhebung oder ein Rechenfehler unterlaufen. Schuld war vielmehr die trügerische Natur des p-Werts selbst. Der ist nämlich keineswegs so verlässlich und objektiv, wie die meisten Wissenschaftler annehmen. "p-Werte leisten nicht, was sie sollen, weil sie es nicht können", sagt Stephen Ziliak von der Roosevelt University in Chicago, Wirtschaftswissenschaftler und prominenter Kritiker des üblichen Umgangs mit Statistik. …

September 2014

Dieser Artikel ist enthalten in Spektrum der Wissenschaft September 2014

Kennen Sie schon …

Dossier 1/2018

Gehirn&Geist – Dossier 1/2018: Die großen Fragen

Was ist Bewusstsein? • Macht Mitgefühl moralisch? • Existiert die Seele? • Wird Psychologie überschätzt? • Gibt es Wahrheit? • Kann man Resilienz lernen? • Bewirkt Nichts etwas?

Spezial Physik - Mathematik - Technik 3/2017

Spektrum der Wissenschaft – Spezial Physik - Mathematik - Technik 3/2017: Vorsicht Statistik!

Universelle Gesetze: Zentraler Grenzwertsatz und Zufallsmatrizen • Superlative: Sportliche Höchstleistungen und Hitzewellen • Fehlschlüsse: Missbrauch des p-Werts und mangelnde Reproduzierbarkeit

Statistik - Zahlenspiele mit Mehrwert

Spektrum Kompakt – Statistik - Zahlenspiele mit Mehrwert

Korrekte Werte zu messen, ist eine Sache - sie richtig zu analysieren und zu interpretieren, eine andere. Hier helfen statistische Verfahren weiter. Doch was steckt hinter Signifikanz, Streuung und Co?

Lesermeinung

3 Beiträge anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Vielen Dank!

  • Quellen

Goodman, S. N.: Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy. In: Annals of Internal Medicine 130, S. 995 - 1004, 1999

Goodman, S. N.: Of P-Values and Bayes: A Modest Proposal. In: Epidemiology 12, S. 295 - 297, 2001

Ioannidis, J. P. A.: Why Most Published Research Findings are False. In: PLoS Medicine 2, e124, 2005

Lambdin, C.: Significance Tests as Sorcery: Science is Empirical – Significance Tests are not. In: Theory & Psychology 22, S. 67 - 90, 2012

Nosek, B. A., Spies, J. R., Motyl, M.: Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth over Publishability. In: Perspectives on Psychological Science 7, S. 615 - 631, 2012

Simmons, J. P. et al.: False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. In: Psychological Science 22, S. 1359 - 1366, 2011

Open Science Collaboration: An Open, Large-Scale, Collaborative Effort to Estimate the Reproducibility of Psychological Science. In: Perspectives on Psychological Science 7, 657 - 660, 2012

Sellke, T., Bayarri, M. J., Berger, J. O.: Calibration of p Values for Testing Precise Null Hypotheses. In: The American Statistician 55, 62 - 71, 2001

Gorroochurn P. et al.: Non-replication in Association Studies: 'Pseudo-failures' to Replicate? In: Genetics in Medicine 9, 325 - 331, 2007

Cacioppo, J. T. et al.: Marital satisfaction and break-ups differ across on-line and off-line meeting venues. In: Proceedings of the National Academy of Sciences USA 110, S. 10135 - 10140, 2013

Nuzzo, R.: Online daters do better in the marriage stakes. In: Nature News, 3. Juni 2013

Simonsohn, U. et al.: P-curve: A key to the file-drawer. In: Journal of Experimental Psychology: General 143, 534 - 547, 2014

Campbell, J. P.: Some Remarks from the Outgoing Editor. In: Journal of Applied Psychology 67, 691 - 700, 1982 (kostenpflichtig)