Statistik auf dem Prüfstand: Gleiche Daten, anderes Ergebnis

Ein Experiment demonstriert, wie sich die Methoden einer Analyse auf deren Resultat auswirken. Die brisante Ausgangsfrage: Werden dunkelhäutige Fußballprofis häufiger des Feldes verwiesen?

von Christiane Gelitz

Schiedsrichterpfeife neben roter und gelber Karte — © Kurgu128 / Getty Images / iStock (Ausschnitt)

Wissenschaftliche Befunde sind nicht immer hieb- und stichfest: Selektive Stichproben liefern keine repräsentativen Zahlen, unerwünschte Ergebnisse verschwinden in Schubladen, und mancher vermeintliche Zusammenhang ist nicht mehr als ein Zufallsprodukt. Eine weitere Quelle für unzuverlässige Ergebnisse deckt nun eine Studie in der Fachzeitschrift »Advances in Methods and Practices in Psychological Science« auf: Um dieselbe Hypothese zu prüfen, wählen Forschende verschiedene statistische Analysemethoden und gelangen so zu widersprüchlichen Ergebnissen – trotz identischer Daten.

Das Team um Raphael Silberzahn von der University of Sussex hatte 61 Forschende, teils organisiert in Teams, zu einer Art Meta-Experiment eingeladen. Es ging um einen Datensatz mit Informationen über jene 2000 Fußballprofis, die in der Saison 2012/2013 in der ersten Liga in England, Deutschland, Spanien und Frankreich spielten, darunter demografische Daten ebenso wie die Interaktionen, die sie als Profis im Lauf ihrer Karriere mit insgesamt mehr als 3000 Schiedsrichtern hatten. Die Fragestellung an die Forscherinnen und Forscher: Bekommen dunkelhäutige Fußballspieler häufiger eine rote Karte als ihre hellhäutigen Kollegen?

Unter den 29 verschiedenen Teams, darunter Psychologen, Statistiker, Soziologen und Ökonomen, bestätigten 20 einen solchen Effekt (69 Prozent). Im Mittel lag das Risiko für eine rote Karte bei dunkelhäutigen Spielern um ein Drittel höher, in einem Fall sogar um das Dreifache. Die übrigen neun Teams (31 Prozent) fanden keinen signifikanten Einfluss der Hautfarbe. An etwaigen vorgefassten Meinungen zu der Ausgangsfrage lag das nicht, denn diese waren vorab erfragt worden und hingen nicht mit den späteren Ergebnissen zusammen. Auch die statistische Expertise hatte keinen Einfluss darauf, ob die Teams mit ihrer Analyse einen Effekt nachweisen konnten.

Eine Frage der Kovariaten

Entscheidend war vielmehr die gewählte Methode, unter anderem die Frage, welche Verteilung der Daten vorausgesetzt wurde. Ebenso spielte es eine Rolle, wie die Methode damit umging, dass Spieler und Schiedsrichter einander beeinflussen können und rote Karten keine voneinander unabhängigen Ereignisse sind. Außerdem wurden nicht immer dieselben verfügbaren Daten als so genannte Kovariaten in die Analyse einbezogen. Gut zwei Drittel der Teams hatten beispielsweise die Position des Spielers auf dem Platz berücksichtigt, aber nur drei Prozent die Gesamtzahl der Platzverweise, die ein Schiedsrichter verhängte.

»Subjektive Entscheidungen sind ein Teil des Forschungsprozesses und können die Ergebnisse beeinflussen«, so das Fazit der Autoren. Zwar seien mehr als zwei Drittel der Analysen zu einem ähnlichen Ergebnis gelangt. Doch immerhin hätte jedes dritte Team den laut Mehrheit vorliegenden Effekt nicht bestätigt. Die Autoren empfehlen deshalb, die Daten selbst und die Auswertung offenzulegen sowie »Crowdsourcing« zu betreiben, also mehrere voneinander unabhängige Analysen vornehmen zu lassen. Das würde beispielsweise Entscheidungsträgern ermöglichen einzuschätzen, wie sicher sie sich eines Ergebnisses sein können.

Statistik auf dem Prüfstand: Gleiche Daten, anderes Ergebnis

Eine Frage der Kovariaten

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Videobeweis im Fußball: Zeitlupe macht Schiedsrichter strenger

Marshmallow-Test: Wurde das berühmte psychologische Experiment falsch interpretiert?

Hinter den Schlagzeilen: Fouls, Pfiffe und Fehlentscheidungen

Themenkanäle

Fitness

Sportpsychologie

Statistik

SponsoredPartnerinhalte