Direkt zum Inhalt

Signifikanztest: Statistik: Der p-Wert ist das kleinste Problem!

Gute Forschung leidet unter fragwürdiger Statistik. Aber sie ist nur das letzte Glied in einer Kette von Fehlentwicklungen, finden Experten.
StatistikLaden...

In puncto "schlechter Ruf" kann es keine Statistik mit dem p-Wert aufnehmen: Hunderte wissenschaftlicher Beiträge und Blogposts haben sich schon über den "Nullhypothesen-Signifikanztest" (NHST) ausgelassen. Beim NHST wird die Aussagekraft einer Datenanalyse danach bewertet, ob ein einzelner statistischer Parameter – eben der P-Wert – einen bestimmten Schwellenwert überschreitet. Der NHST wird derart kontrovers beurteilt, dass einige es als Erfolg auf ganzer Linie sehen, wenn er schlicht abgeschafft wird, so wie es im Februar etwa das Fachmagazin "Basic and Applied Social Psychology" durchexerziert hat.

Solche Verbote werden allerdings kaum die Qualität der Forschung insgesamt verbessern. Schließlich entsteht eine erfolgreiche Veröffentlichung, angefangen vom Studiendesign bis zur Analyse der Rohdaten, in mehreren Stufen (siehe Abbildung). Und erst im letzten Schritt erfolgt dann der Einsatz inferentieller Statistik, also etwa eine p-Wert-Berechnung mitsamt der Wahl eines Signifikanzniveaus (zum Beispiel "p <  0,05"). In der Praxis sind meist lange vorher viel wichtigere Entscheidungen getroffen worden – so die über den Versuchsaufbau oder die Eindämmung von Batch-Effekten, Störfaktoren oder einfach nur von Messfehlern. "Statistische Signifikanz" kann zudem recht willkürlich umdefiniert werden, indem man einfach die Methodik zur Bereinigung, Zusammenführung oder Modellierung des eigenen Datensatzes verändert.

Etappen im FoschungsprojektLaden...
Etappen im Forschungsprojekt | Ein erfolgreich abgeschlossenes Forschungsprojekt gelingt in aufeinander folgenden Etappen. Dabei wird oft nur der letzte Schritt – die p-Wert-Statistik – extrem kritisch beäugt.

Der p-Wert ist leichte Beute: Weil er häufig eingesetzt wird, wird er oft manipuliert. Dabei öffnet die Flexibilität "statistischer Signifikanz" im wahren Forscherleben ganz andere Möglichkeiten des Herumdokterns an Statistik, womit dann – absichtlich oder unabsichtlich – Ergebnisse verändert werden. Natürlich kann man eine p-Wert- durch eine Bayes-Statistik ersetzen (oder etwas anderes), man trifft damit am Ende aber vor allem eine etwas andere Entscheidung über die Bewertung von falsch positiven und positiven Werten. Über p-Werte zu diskutieren, ist eher, wie Schreibfehler anzumäkeln, wo der Satzbau fehlerhaft ist.

Der erste Schritt zur Lösung des Problems wäre eine bessere Ausbildung. Jeder, der Fernerkundung oder DNA-Analysen betreibt, hat sich erst einmal gründlich in die Betriebsanleitung seiner Geräte vertieft – und genauso sollte jeder Datenanalyst die eingesetzte Software und Methodik verstanden haben. Sponsoren wie Arbeitgeber der Forscher sollten darauf drängen, dass auch Supervisoren der Studien verstanden haben, wo bei der Analyse von Daten Probleme lauern und wie die Daten gesammelt wurden.

Statistikprobleme in der Forschung drehen sich zum großen Teil um mathematische Statistik, dies berücksichtigt aber weniger Verhaltensaspekte oder die Prozesse bei der Datenanalyse. Solche tiefer liegenden Probleme können nur angegangen werden, wenn erforscht ist, wie Menschen im wirklichen Leben bei einer Datenanalyse eigentlich vorgehen. Was bringt sie auf einen Erfolg versprechenden, was auf einen aussichtslosen Weg? Bereits vor einiger Zeit wurden Kontrollstudien durchgeführt, um zu untersuchen, wie Menschen mit Daten und Statistik interagieren – etwa in puncto Visualisierung oder Risikoabschätzung. Nicht so lange zurück liegen Versuche unserer eigenen Arbeitsgruppe, bei der wir den gesamten Analyseprozess unter die Lupe genommen haben. Dabei kam zum Beispiel heraus, dass frisch ausgebildete Datenanalysten zwar gelegentlich Schwierigkeiten damit haben, p-Werte aus Datenplots abzuleiten, dass sie das andererseits aber mit genug praktischer Erfahrung durchaus lernen.

Anstrebenswert wäre eine evidenzbasierte Datenanalyse – analog zur evidenzbasierten Medizin, bei der Ärzte angehalten sind, in kontrollierten Versuchen erprobte und erwiesenermaßen wirksame Arzneien bevorzugt einzusetzen. Alle, die anwendungsbezogen Statistik nutzen oder lehren, sollten jedenfalls nicht länger nur über p-Werte diskutieren: Diese sind nur die Spitze eines Eisbergs, der gute Forschung leicht untergehen lassen kann.

Der Artikel ist im Original als "Statistics: P values are just the tip of the iceberg" in "Nature" erschienen.
18/2015

Dieser Artikel ist enthalten in Spektrum - Die Woche, 18/2015

Lesermeinung

1 Beitrag anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Lesermeinungen können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnervideos