Psychologische Studien: Die Hälfte ist mängelbehaftet

Forscher haben einen automatisierten Statistikchecker auf ein Archiv psychologischer Studien losgelassen. Die Ergebnisse zeigen: Statistikfehler sind wahrlich keine Ausreißer.

von Jan Dönges

Statistik im Test — © fotolia / Wrangler (Ausschnitt)

Die Forschungsmethoden der empirischen Psychologie sind zuletzt immer stärker in die Kritik geraten. Nun zeigt eine weitere Untersuchung, dass Autoren psychologischer Studien offenbar erhebliche Probleme damit haben, zentrale Werte ihrer Statistiken korrekt zu berechnen: Rund die Hälfte aller Studien aus dem Zeitraum zwischen 1985 und 2013, die jetzt ein Forscherteam analysierte, hatte den so genannten P-Wert falsch angegeben.

In 13 Prozent der Fälle stieß das Team sogar auf "schwere Ungereimtheiten". Bei diesen Studien war die Interpretation der Resultate durch den neu berechneten P-Wert nicht mehr gedeckt – beispielsweise weil die Neuberechnungen aus einem als "signifikant" bezifferten P-Wert ein nicht signifikanten machten.

Das Team um Michèle Nuijten von der Universität Tilburg hat dazu eine Software namens "statcheck" entwickelt. Sie kann PDF-Dokumente auf statistische Angaben absuchen, die in einem normierten Format angegeben werden. In den meisten Journals ist dies die gängige Praxis. Des Weiteren sucht statcheck nach Schlüsselwörtern, die auf die Art des statistischen Tests hinweisen ("one-tailed", "two-tailed"). Die extrahierten Daten verwendet die Software, um einen eigenen P-Wert zu berechnen und diesen mit dem berichteten Wert zu vergleichen.

Mit Hilfe von statcheck haben Nuijten und Kollegen nun 30 000 Psychologie-Paper aus insgesamt acht renommierten Journalen seit 1985 untersucht. Das Programm benötigte dazu gerade einmal zwei Stunden. "Im Schnitt enthält ein Psychologie-Artikel etwa elf P-Werte. Das bedeutet, was statcheck innerhalb eines Wimpernschlags analysiert, dauert per Hand ungefähr zehn Minuten", erklärt Nuijten dem Magazin "Nature".

In 16 700 Veröffentlichungen fand ihre Software solche statistischen Berechnungen, bei denen etwa 258 000 P-Werte angegeben wurden. Jeder zehnte davon zeigte Inkonsistenzen. Immerhin änderte sich dadurch in den meisten Fällen nichts an der Grundaussage. Zudem scheint sich die Fehlerhäufigkeit auch im Lauf der Jahre nicht verbessert oder verschlechtert zu haben – der Anteil falsch berechneter P-Wert blieb ungefähr immer gleich hoch.

Das Team um Nuijten hat die Software zur freien Verfügung gestellt. Da eine Überprüfung innerhalb kürzester Zeit geschehen könne, schlagen sie vor, künftig vor Veröffentlichung einen kurzen Check auf die Korrektheit der Statistik vorzunehmen. Journals würden ja auch routinemäßig ein Programm nach Plagiaten suchen lassen, so die Forscherin.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Psychologische Studien: Die Hälfte ist mängelbehaftet

Schreiben Sie uns!

Artikel zum Thema

Reproduzierbarkeit von Forschung: Psychologische Studien sind oft nur kurz richtig

Signifikanztest: Statistik: Der p-Wert ist das kleinste Problem!

Methodenkritik: Ein Fehler kommt selten allein

Themenkanäle

Statistik

Neutrinos

Die neue Generation von Computern

SponsoredPartnerinhalte