Befragt man einzelne Psychologen, welche gerade neu herausgekommene Studie ihres Fachgebiets sich bei einer zweiten Überprüfung als reproduzierbar erweisen würden, ist das Ergebnis selten zuverlässig: Tatsächlich könnte man fast ebenso gut eine Münze werfen, anstatt die Fachleute zu befragen. Das ändert sich allerdings, sobald man die Antwort in einer Marktsituation prognostizieren lässt, bei der die gesammelten Meinungen zusammengeworfen werden. Dann ergeben sich recht gute Vorhersagen über die Reproduzierbarkeit der fraglichen Studien, wie ein Vorhersageexperiment belegt.

Der Test des Verfahrens wurde parallel zu dem jüngst durchgeführten crowdbasierten Großexperiment unternommen. Im Zuge des schlagzeilenträchtigen Unternehmens konnte von 100 psychologischen Veröffentlichungen nicht einmal die Hälfte von unabhängigen Teams reproduziert werden. Während dieser Großversuch im letzten Jahr lief – aber noch vor der Bekanntgabe des Ergebnisses – waren zusätzlich gut 40 beteiligte Forscher gebeten worden, per Fragebogen zu wetten, welche von über 40 getesteten Studien sich am Ende wohl bestätigen würde – und wie hoch sie die Wahrscheinlichkeit dafür einschätzen würden.

Schaubild: Wieviele Grafiken liessen sich reproduzieren?
© Baker, M.: First results from psychology’s largest reproducibility test. In: Nature 10.1038/nature.2015.17433, 2015
(Ausschnitt)
 Bild vergrößernReproduzierbare Studien

Dabei ging es auch um echte Wetteinsätze: Die Teilnehmer bekamen 100 US-Dollar, die sie in "Aktien" anlegen durften, die den einzelnen Studien zugeordnet waren. Festgelegt war dabei, dass die Aktien von nicht reproduzierbaren Studien nach Abschluss des Experimentes wertlos sein würden, diejenigen jedoch, die zu Veröffentlichungen gehörten, die sich in ihrer Hauptaussage reproduzieren lassen würden, brächten jeweils einen Dollar ein. (In Studien, die sie selbst zu überprüfen hatten, durften die Befragten dabei übrigens nicht investieren.)

Die Ergebnisse sind nun publiziert worden. Wie sich zeigt, waren die in den Einzelumfragen gesammelten Prognosen kaum häufiger richtig, als wenn man sie schlicht ausgewürfelt hätte. Das Wettaktien-Marktmodell dagegen erreichte eine deutlich höhere Treffgenauigkeit von immerhin 71 Prozent korrekt vorhergesagter Replikationsresultate. Allerdings neigte der Wettmarkt insgesamt zu leicht übertriebenem Optimismus: Am Ende war die Durchschnittsaktie 55 US-Cent wert – woraus geschlossen werden kann, dass der "Markt" davon ausging, dass 55 Prozent aller Studien reproduziert werden können.

Insgesamt legt das Ergebnis aber nahe, dass die Wissenschaftlercommunity zu relativ verlässlichen Einschätzungen über die Reproduzierbarkeit kommen kann, kommentieren Experten, die nicht an dem Versuch beteiligt waren: "Das zeigt, dass eine Gruppe erfahrener Kollegen einen guten Riecher dafür hat, was sich bestätigen wird und was nicht", findet etwa der Verhaltensökonom Colin Camerer vom California Institute of Technology in Pasadena. "Diese Informationen steckt im Urteilsvermögen der Kollegenschaft – bisher hatte man das aber nie zusammengetragen und quantifiziert."

Die Einsätze, bitte

Der Marktansatz hat womöglich bessere Vorhersagen geliefert, weil Geld auf dem Spiel stand – oder vielleicht auch, weil die Marktsituation es erlaubt hat, die eigenen Wettentscheidungen an den Neigungen der anderen Teilnehmer feinzujustieren, erklärt Simine Vazire, die als Psychologin an der University of Califorina in Davis forscht. Trotzdem waren auch die Wettquoten am Ende häufig ungenau, so dass es "nicht weise wäre, auf der Basis von Vorhersagemärkten entscheiden zu wollen, welche Studie sich wohl reproduzieren lässt", ergänzt sie. "Aber ich denke schon, dass wir auf diesem Weg wertvolle Informationen über die Rahmenbedingungen bekommen können, welche die Reproduzierbarkeit einer Studie beeinflussen. Welcher Typus von Studie wird, zum Beispiel, von den Marktmodellen als wahrscheinlicher reproduzierbar eingestuft?"

Mit Detailinformationen aus den ursprünglichen Studien und den anschließenden Versuchen, diese zu reproduzieren, haben die Wissenschaftler auch ein Bayes-Statistik-Modell entwickelt: Es soll Einschätzungen über die Wahrscheinlichkeiten liefern, nach der sich eine Hypothese, die nachträglich erneut bestätigt wird, als tatsächlich wahr herausstellt.

Dabei erreicht die mittlere Wahrscheinlichkeit, dass die Grundhypothese einer initialen Veröffentlichung sich als zutreffend entpuppt, gerade einmal 56 Prozent. Oder anders ausgedrückt, "die Wahrscheinlichkeit dafür, dass die Hypothese wahr ist, strebt nicht gerade mit Raketengeschwindigkeit in Richtung völliger Sicherheit", scherzt der Psychologe Brian Nosek von der University of Virginia in Charlottesville, einer der Koautoren der Studie. Aber: Nach einer ersten erfolgreichen Replikation erreicht die Wahrscheinlichkeit für das Zutreffen der Hypothese dann doch annähernd 100 Prozent, wie die Auswertung zeigt.

"Nicht gerade mit Raketengeschwindigkeit in Richtung völliger Sicherheit" (Brian Nosek)

Demnach könnte man, legen die Autoren nahe, das Marktmodell sinnvoll einsetzen, um besonders replikationswürdige Studien auszumachen: "Wenn die Erkenntnisse reproduziert werden können, dann könnten wir Märkte einsetzen, um die Glaubwürdigkeit der frisch publizierten Studien einzuschätzen." Und, so Nosek weiter: "Wir könnten priorisieren, welche Erkenntnisse wichtig genug sind, sie mitsamt ihrer unsicheren Resultate noch einmal genauer unter die Lupe zu nehmen."

Der Artikel ist im Original "Psychologists' betting market hints at most reliable research findings" in "Nature" erschienen.