Statistik: Der Fluch des p-Werts

Dieser Artikel ist Abonnenten mit Zugriffsrechten für diese Ausgabe frei zugänglich.

Statistik: Der Fluch des p-Werts

Seit Jahrzehnten pflegt man die Bedeutung ("Signifikanz") eines statistischen Befunds mit einem aus den Daten zu berechnenden Zahlenwert einzuschätzen. Aber dieser "p-Wert" leistet nicht, was allgemein von ihm erwartet wird – zum Schaden für die Wissenschaft.

Regina Nuzzo

P-Hacking — © Spektrum der Wissenschaft / Emde-Grafik & Marcus Frey (Ausschnitt)

Für einen kurzen Augenblick stand Matt Motyl an der Schwelle zum wissenschaftlichen Ruhm. Im Jahr 2010 entdeckte er bei einem Experiment, dass Extremisten die Welt in Schwarz und Weiß sehen – und das ganz buchstäblich.

Seine Ergebnisse waren "klar wie der helllichte Tag", erinnert sich der Psychologiedoktorand an der University of Virginia in Charlottesville. Seine Studie an 2000 Probanden ergab, dass die Links- oder Rechtsextremen unter den Teilnehmern diverse Grauschattierungen schlechter unterscheiden können als politisch moderater eingestellte Menschen.

Dann aber kam ihm die Realität in die Quere. Da Motyl und seinem Betreuer Brian Nosek der Streit über die mangelnde Reproduzierbarkeit wissenschaftlicher Studien geläufig war, wiederholten sie vorsichtshalber das Experiment. Mit den neuen Daten sprang der p-Wert auf 0,59 – weit jenseits der Schwelle von 0,05, unterhalb der ein Ergebnis als signifikant gilt. So verschwand der Effekt, und mit ihm Motyls Traum vom frühen Ruhm.

Wie sich später herausstellte, war dem Doktoranden nicht etwa eine mangelhafte Datenerhebung oder ein Rechenfehler unterlaufen. Schuld war vielmehr die trügerische Natur des p-Werts selbst. Der ist nämlich keineswegs so verlässlich und objektiv, wie die meisten Wissenschaftler annehmen. "p-Werte leisten nicht, was sie sollen, weil sie es nicht können", sagt Stephen Ziliak von der Roosevelt University in Chicago, Wirtschaftswissenschaftler und prominenter Kritiker des üblichen Umgangs mit Statistik. ...

Download (Abo)

Kennen Sie schon …

Spektrum Kompakt – Datenanalyse - Tücken der Interpretation

Von signifikanten Unterschieden ist gern die Rede, wenn Argumente mit Hilfe von Daten untermauert werden. Doch was steckt überhaupt hinter diesem und anderen statistischen Verfahren? Und welche Fehlinterpretationen können dabei entstehen?

Spektrum Kompakt – Mechanismen der Evolution

Darwins Evolutionstheorie prägt bis heute die Wissenschaft rund um die Entstehung, die Entwicklung und das Aussterben von Arten. Doch neuere Erkenntnisse zeigen, dass die dahinter stehenden Mechanismen weit vielfältiger und subtiler sind als lange gedacht.

Spektrum Kompakt – Statistik - Zahlenspiele mit Mehrwert

Korrekte Werte zu messen, ist eine Sache - sie richtig zu analysieren und zu interpretieren, eine andere. Hier helfen statistische Verfahren weiter. Doch was steckt hinter Signifikanz, Streuung und Co?

Schreiben Sie uns!

3 Beiträge anzeigen

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Quellen
Links im Netz

Goodman, S. N.:Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy. In: Annals of Internal Medicine 130, S. 995 - 1004, 1999

Goodman, S. N.:Of P-Values and Bayes: A Modest Proposal. In: Epidemiology 12, S. 295 - 297, 2001

Ioannidis, J. P. A.:Why Most Published Research Findings are False. In: PLoS Medicine 2, e124, 2005

Lambdin, C.:Significance Tests as Sorcery: Science is Empirical – Significance Tests are not. In: Theory & Psychology 22, S. 67 - 90, 2012

Nosek, B. A., Spies, J. R., Motyl, M.:Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth over Publishability. In: Perspectives on Psychological Science 7, S. 615 - 631, 2012

Simmons, J. P. et al.:False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. In: Psychological Science 22, S. 1359 - 1366, 2011

Open Science Collaboration:An Open, Large-Scale, Collaborative Effort to Estimate the Reproducibility of Psychological Science. In: Perspectives on Psychological Science 7, 657 - 660, 2012

Sellke, T., Bayarri, M. J., Berger, J. O.:Calibration of p Values for Testing Precise Null Hypotheses. In: The American Statistician 55, 62 - 71, 2001

Gorroochurn P. et al.:Non-replication in Association Studies: 'Pseudo-failures' to Replicate? In: Genetics in Medicine 9, 325 - 331, 2007

Cacioppo, J. T. et al.:Marital satisfaction and break-ups differ across on-line and off-line meeting venues. In: Proceedings of the National Academy of Sciences USA 110, S. 10135 - 10140, 2013

Nuzzo, R.:Online daters do better in the marriage stakes. In: Nature News, 3. Juni 2013

Simonsohn, U. et al.:P-curve: A key to the file-drawer. In: Journal of Experimental Psychology: General 143, 534 - 547, 2014

Campbell, J. P.:Some Remarks from the Outgoing Editor. In: Journal of Applied Psychology 67, 691 - 700, 1982 (kostenpflichtig)

Simonsohn, U. (Mehrere Dokumente zum Thema "p-curve")