Wir fordern keineswegs dazu auf, keine p-Werte mehr zu verwenden. Und wir behaupten auch nicht, dass sie in speziellen Situationen nicht als Entscheidungskriterium taugen – beispielsweise bei der Überprüfung, ob ein Produktionsprozess einen gegebenen Qualitätsstandard erfüllt. Weiterhin votieren wir mit Sicherheit nicht für eine Alles-ist-möglich-Sichtweise, bei der eine geringe Signifikanz plötzlich glaubwürdig ist. Vielmehr rufen wir – in Übereinstimmung mit vielen anderen in den vergangenen Jahrzehnten – dazu auf, p-Werte nicht länger auf traditionelle, dichotome Art zu verwenden, also um eine wissenschaftliche Hypothese entweder zu bestätigen oder zu widerlegen.

Schluss mit der Kategorisierung

Das Problem ist eher menschlich und kognitiv als statistisch: Die Einordnung von Ergebnissen als entweder statistisch signifikant oder statistisch nicht signifikant führt zu dem Eindruck, in unterschiedliche Gruppen eingeordnete Ergebnisse seien kategorisch unterschiedlich. Dieses Problem tritt vermutlich auch bei vorgeschlagenen statistischen Alternativen – ob frequentistisch, bayesianisch oder anderweitig – auf, solange sie eine Dichotomisierung enthalten, also eine Einordnung in zwei Kategorien.

Der Irrglaube, die Überschreitung der Grenze zur statistischen Signifikanz bedeute, ein Ergebnis sei »real«, führt unglücklicherweise dazu, dass Wissenschaftler und Redakteure von Fachzeitschriften solche Ergebnisse bevorzugen. Damit verzerren sie die Darstellung der Forschung in der Fachliteratur. Statistisch signifikante Befunde sind erheblich überrepräsentiert, während statistisch nicht signifikante Befunde deutlich unterrepräsentiert sind. Entsprechend unausgewogen sind die darauf basierenden Diskussionen. Zudem führt die starre Fokussierung auf statistische Signifikanz dazu, dass Forschende Daten und Methoden auswählen, die eine für ein gewünschtes (oder publizierbares) Ergebnis ausreichende Signifikanz liefern. Oder zu einer statistischen Nichtsignifikanz für ein unerwünschtes Resultat, etwa zu potenziellen Nebenwirkungen von Medikamenten. In beiden Fällen führt dies zu falschen Schlussfolgerungen.

Eine Vorabregistrierung von Untersuchungen und eine Verpflichtung, alle Ergebnisse aller Analysen zu veröffentlichen, könnten diese Probleme abmildern. Doch auch vorab registrierte Untersuchungen können verzerrte Ergebnisse liefern, da die Planung der Untersuchungen unweigerlich Entscheidungen offen lässt. Das geschieht selbst bei besten Vorsätzen.

Wir rufen dazu auf, p-Werte nicht länger auf traditionelle, dichotome Art zu verwenden, also um eine wissenschaftliche Hypothese entweder zu bestätigen oder zu widerlegen

Um es zu wiederholen: Wir sprechen uns nicht für ein Verbot von p-Werten, Konfidenzintervallen oder anderen statistischen Größen aus. Doch wir sollten diese Größen nicht zur Kategorisierung verwenden. Darunter fällt auch die Einteilung in statistisch signifikant und statistisch nicht signifikant sowie jede Einteilung in zwei Kategorien durch statistische Größen wie den Bayes-Faktor.

Ein Grund, eine solche Dichotomanie zu vermeiden, ist, dass statistischen Größen wie p-Werte und Konfidenzintervalle auf natürliche Weise von Studie zu Studie variieren, und das oft überraschend stark. Tatsächlich können schon allein zufällige Variationen zu großen Unterschieden zwischen den p-Werten führen – sehr viel größer, als nur knapp auf der einen oder der anderen Seite der Grenze von 0,05 zu liegen. Selbst wenn Forschende zwei perfekt identische Studien zu einem tatsächlich existierenden Effekt durchführen könnten, die jede mit einer Wahrscheinlichkeit von 80 Prozent p < 0,05 liefert, wäre es nicht überraschend, wenn bei der einen p < 0,01 und bei der anderen p > 0,30 ist. Ob der p-Wert groß oder klein ist: Stets ist Vorsicht angebracht.

Wir haben es satt, unsinnige »Beweise der Nullhypothese« zu sehen

Wir müssen lernen, Unsicherheiten einzubeziehen. Ein praxisnaher Weg dahin ist, Konfidenzintervalle in Kompatibilitätsintervalle umzutaufen und sie auf eine Art und Weise zu interpretieren, die überzogenes Vertrauen vermeidet. Insbesondere empfehlen wir, dass Autoren die praktischen Auswirkungen aller Werte innerhalb des Intervalls diskutieren, vor allem des beobachteten Effekts (oder des Punktschätzers) und der Grenzwerte. Dabei sollten sie sich daran erinnern, dass alle Werte zwischen den Intervallgrenzen angemessen kompatibel mit den Daten sind, jedenfalls unter den statistischen Voraussetzungen, die für die Berechnung des Intervalls verwendet wurden. Deshalb ist es nicht sinnvoll, einen bestimmten Wert (etwa den Wert der Nullhypothese) aus dem Intervall als Ergebnis auszuwählen.

Wir haben es satt, solche unsinnigen »Beweise der Nullhypothese« und angebliche Bestätigungen für Nichtzusammenhänge in Präsentationen, Fach- und Übersichtsartikeln und Lehrmaterialien zu sehen. Ein Intervall, das den Wert der Nullhypothese enthält, wird häufig auch andere Werte enthalten, die von großer praktischer Bedeutung sind. Nur unter der Voraussetzung, dass man alle anderen Werte in dem Intervall als praktisch irrelevant ansehen kann, lässt sich also eine Schlussfolgerung ziehen wie: »Unser Ergebnis stimmt am besten mit der Nullhypothese überein, dass es keinen wichtigen Effekt gibt.«

Vier Dinge über Kompatibilitätsintervalle

Wenn man über Kompatibilitätsintervalle spricht, sind vier Dinge zu beachten.

Erstens: Nur weil das Intervall die Werte umfasst, die unter den vorausgesetzten Annahmen am besten mit den Daten übereinstimmen, bedeutet das keineswegs, dass die Werte außerhalb des Intervalls mit den Daten unvereinbar wären – sie sind lediglich weniger mit ihnen vereinbar. Tatsächlich unterscheiden sich ja Werte knapp innerhalb und knapp außerhalb des Intervalls kaum voneinander. Es wäre also falsch zu behaupten, ein Intervall zeige alle möglichen Werte.

Zweitens: Nicht alle Werte innerhalb des Intervalls sind unter den vorausgesetzten Annahmen gleich kompatibel mit den Daten. Der Punktschätzer stimmt am besten mit den Daten überein. Und die Werte in seiner Umgebung haben eine höhere Kompatibilität mit den Daten als jene am Rand des Intervalls. Deshalb drängen wir darauf, dass Autoren den Punktschätzer und die Grenzen des Intervalls diskutieren, selbst wenn sie einen großen p-Wert oder ein großes Intervall haben. So hätten die oben zitierten Autoren beispielsweise schreiben können: »Wie frühere Untersuchungen deutet unser Ergebnis auf eine Zunahme des Risikos für neu auftretendes Vorhofflimmern um 20 Prozent bei Einnahme entzündungshemmender Medikamente. Gleichwohl ist ein Bereich für dieses Risiko von einer geringfügigen Abnahme um drei Prozent bis hin zu einer substanziellen Zunahme um 48 Prozent unter den vorausgesetzten Annahmen angemessen verträglich mit unseren Daten.« Durch die Angabe des Punktschätzer und der Unsicherheiten vermeidet man die falsche Behauptung, es gäbe »keinen Unterschied« sowie mit übertriebener Sicherheit präsentierte Folgerungen.

Drittens: Ähnlich wie die 0,05-Grenze, von der es sich ableitet, ist auch die übliche 95-Prozent-Grenze für Intervalle eine rein willkürliche Konvention. Sie basiert auf der falschen Vorstellung, dass es eine Wahrscheinlichkeit von 95 Prozent dafür gäbe, dass das berechnete Intervall den wahren Wert enthält, sowie auf dem vagen Gefühl, es handle sich dann um eine zuverlässige Aussage. Doch abhängig von der tatsächlichen Anwendung können auch andere Grenzen gerechtfertigt sein. Außerdem können, wie am Beispiel der entzündungshemmenden Medikamente gezeigt, Intervallschätzungen die Probleme der statistischen Signifikanz wieder aufleben lassen, wenn die von ihnen verursachte Dichotomisierung als wissenschaftlicher Standard behandelt wird.

Viertens und am wichtigsten: Seid demütig. Jede Einschätzung der Kompatibilität hängt von der Korrektheit der statistischen Annahmen ab, die zur Berechnung des Intervalls verwendet werden. In der Praxis sind solche Annahmen bestenfalls mit großen Unsicherheiten behaftet. Man sollte die Annahmen also so klar wie möglich hervorheben und, soweit möglich, überprüfen. Zum Beispiel, indem man die Daten grafisch darstellt, an alternative Modelle anpasst – und auch diese Ergebnisse veröffentlicht.

Ganz unabhängig von den statistischen Ergebnissen ist es natürlich in Ordnung, mögliche Ursachen zu diskutieren. Jedoch sollte man nicht nur die von einem selbst bevorzugte, sondern stets ein ganzes Bündel möglicher Erklärungen betrachten. Schlussfolgerungen sollten wissenschaftlich begründet sein, und das geht weit über eine rein statistische Begründung hinaus. Faktoren wie Hintergrundinformationen, Machart der Untersuchung, Qualität der Daten und Verständnis der zu Grunde liegenden Mechanismen sind häufig viel wichtiger als statistische Werte wie der p-Wert oder Intervalle.

Der häufigste Einwand zu Gunsten der statistischen Signifikanz lautet: Man benötige sie, um Ja/Nein-Entscheidungen zu treffen, derer es oft im Umfeld von Behörden, Politik oder Unternehmen bedarf. Aber gerade dort hängen die Entscheidungen zumeist viel stärker von Kosten-Nutzen-Analysen und der Wahrscheinlichkeit aller denkbaren Konsequenzen ab als von der statistischen Signifikanz. Außerdem: Bei der Entscheidung darüber, ob eine Forschungsidee weiterverfolgt werden soll, gibt es keinen einfachen Zusammenhang zwischen einem p-Wert und den möglichen Ergebnissen weiterer Untersuchungen.

Wie könnte eine Abkehr von der statistischen Signifikanz aussehen? Wir hoffen, dass dann die Anhänge zu Methoden und Daten ausführlicher und nuancierter sein werden. Darin werden die Autoren ihre Schätzungen und deren Unsicherheiten hervorheben, zum Beispiel, indem sie explizit die Grenzen ihres Intervalls diskutieren. Sie werden sich nicht länger auf Signifikanztests verlassen. Wenn p-Werte angegeben werden, dann mit angemessener Genauigkeit (beispielsweise p = 0,021 oder p = 0,13) – ohne Verzierungen mit Sternchen oder Buchstaben, um die statistische Signifikanz zu bezeichnen, und nicht als binäre Ungleichungen (beispielsweise p < 0,05 und p > 0,05). Entscheidungen darüber, die Befunde zu diskutieren oder zu veröffentlichen, hängen nicht mehr von einem statistischen Grenzwert ab. Die Forschenden vergeuden weniger Zeit mit Statistikprogrammen und haben mehr Zeit zum Nachdenken.

Die statistische Signifikanz in den Ruhestand zu schicken und Konfidenzintervalle als Kompatibilitätsintervalle zu verwenden, ist kein Allheilmittel. Zwar lassen sich auf diese Weise viele schlechte Praktiken beseitigen, aber es können auch neue daraus entstehen. Es sollte daher für die wissenschaftliche Gemeinschaft dauerhaft Priorität haben, die Fachliteratur auf etwaigen falschen Gebrauch von Statistik zu überwachen. Doch das Ausmerzen der Kategorisierung wird einiges vermeiden helfen: mit übertriebener Sicherheit aufgestellte Behauptungen, die unbegründete Feststellung »keiner Unterschiede« und die absurde Bezeichnung eines Ergebnisses als »nicht replizierbar«, obwohl die Daten von Original- und Replikationsstudie einander sehr wohl entsprechen. Der Missbrauch der statistischen Signifikanz hat der Wissenschaft großen Schaden zugefügt ebenso wie jenen, die sich auf wissenschaftlichen Rat verlassen. Natürlich haben p-Werte, Intervalle und andere statistische Größen alle ihren Wert. Aber für die statistische Signifikanz ist es Zeit zu gehen.