Wer krank ist und zum Arzt geht, sollte eigentlich auf der Grundlage besten Wissens versorgt werden. Doch mit der Faktenlage ist es so eine Sache. "In der Medizin können wir uns niemals sicher sein, welche Folgen unser Handeln haben wird. Wir können lediglich das Ausmaß der Unsicherheit eingrenzen", schrieb der Kinderarzt William A. Silverman vor knapp 20 Jahren in seinem Buch "Where's the evidence?" (PDF). Das ist ernüchternd. Ebenso die Zahlen, die Nicholas Schork vom Scripps Research Institute (San Diego) im Magazin "Nature" auflistet. Jeden Tag würden Millionen von Menschen Arzneien einnehmen, die ihnen nicht helfen. Selbst die zehn umsatzstärksten Medikamente in den USA nützten nur selten: Das Multiple-Sklerose-Medikament Glatirameracetat beispielsweise hilft nur einem von 16 Betroffenen, das Antidepressivum Duloxetin nur einem von neun. Von einigen Arzneistoffen wie den Statinen, die routinemäßig zur Senkung des Cholesterinspiegels verschrieben werden, profitierte sogar nur einer von 50. "Es gibt Medikamente, die für bestimmte Bevölkerungsgruppen sogar gefährlich sind, weil in klinische Studien meist nur weiße Ethnien einbezogen werden", kritisiert der Biostatistiker Schork.

Wie kommt die Medizin zu ihren Fakten, woher weiß man (oder meint zu wissen), welche Medikamente nützen, nicht helfen oder gar Schaden anrichten? Als Goldstandard, um das herauszufinden, gilt die randomisierte kontrollierte Studie (RCT). "Eine solche Studie ist optimal, wenn ich wissen will, was eine medizinische Maßnahme im Vergleich zu einer etablierten Therapie oder gar keiner Intervention bringt", sagt Ingrid Mühlhauser, Gesundheitswissenschaftlerin von der Universität Hamburg und im Vorstand des Deutschen Netzwerks Evidenzbasierte Medizin e. V.

Die Idee hinter diesem Studientyp ist alt. Schon vor mehr als 1000 Jahren verglich der persische Arzt al-Razi den Krankheitsverlauf bei Menschen mit einer Hirnhautentzündung, die er entweder mit oder ohne Aderlass behandelte. Im Jahr 1747 testete James Lind, Schiffsarzt der "HMS Salisbury", sechs verschiedene Behandlungsmethoden bei Skorbut. Jeweils zwei von insgesamt zwölf Erkrankten schluckten Apfelwein, Schwefelsäure, Essig, Meerwasser, Muskatnuss oder Orangen und Zitronen. Das Resultat war eindeutig: Die britische Marine hatte fortan auf all ihren Schiffen Zitronensaft an Bord.

90 Prozent der medizinischen Studien von der Industrie

Heutzutage geht es nicht mehr um Essig und Meerwasser, und auch zwölf Teilnehmer würden für eine Studie wohl kaum ausreichen. Etwa 90 Prozent der Studien im medizinischen Bereich führt die Industrie durch. Laut der Datenbank Medline veröffentlichen Forscher aktuell in jedem Jahr 200 000 RCTs, von denen die meisten laut John Ioannidis (Stanford University) jedoch nicht nützlich sind. Häufig stellten diese Studien nicht die wirklich wichtigen Ausgangsfragen und/oder seien methodisch fragwürdig und undurchsichtig. Wirklich hilfreich können zunächst einmal nur diejenigen Studien sein, die verschiedene Qualitätsmerkmale einhalten. Als Kennzeichen "fairer Tests" nennen Paul Glasziou und Kollegen in ihrem Buch "Wo ist der Beweis?" zum Beispiel: Gleiches muss mit Gleichem verglichen, der Zufallsfaktor berücksichtigt und alle zusätzlich relevanten wissenschaftlichen Erkenntnisse müssen in die Studie miteinbezogen werden.

Gleiches mit Gleichem vergleichen kann nur, wer die Patienten per Zufallsverfahren auf die Therapie- und die Kontrollgruppe verteilt. Bezogen auf das Geschlecht, das Alter und den Krankheitszustand sollte es durch diese "Randomisierung" zwischen den Vergleichsgruppen keine Unterschiede geben. In beiden Gruppen werden vorher festgelegte Endpunkte (zum Beispiel Laborwerte, Tumorgröße und so weiter) in einem bestimmten Zeitfenster erfasst und verglichen. Die gemessenen Behandlungsergebnisse sollten auf den Patienten bezogen eine wirkliche Bedeutung haben. Und es sollten nicht etwa, wie bei Tests zu Alzheimer-Medikamenten geschehen, Messwerte der Gedächtnisleistung gewählt werden, die klinisch völlig bedeutungslose Veränderungen messen.

"Es gibt bei medizinischen Studien sehr viele Fehlermöglichkeiten, und es wird viel herumgetrickst"
(Gerd Antes)

Bei der Studiengestaltung ist es wichtig, mögliche Störfaktoren auszuschalten, die die Ergebnisse verfälschen würden. Ein wichtiges Werkzeug ist hier die Verblindung: Weder dem Arzt noch dem Patienten und im Idealfall auch nicht den Untersuchern, die die Daten sammeln, ist bekannt, welcher Patient zur Therapiegruppe und welcher zur Kontrollgruppe gehört. Weiß der Arzt Bescheid, verhält er sich einem Patienten gegenüber, der das zu testende Medikament bekommt, anders als gegenüber einem, der das Placebo schluckt. "Erwartungen vom Versuchsleiter können sich auf das Verhalten des Patienten übertragen, wodurch sich dieser besser fühlen könnte, weil sich der Arzt mehr Mühe gegeben hat", erläutert Roman Pokora vom Institut für Medizinische Biometrie, Epidemiologie und Informatik an der Universität Mainz. Welche Auswirkungen das haben kann, zeigte eine Untersuchung aus dem Jahr 1995 von Forschern der Mayo Clinic in Rochester. Beim Test eines neuen Multiple-Sklerose-Medikaments erzielte ein unverblindeter Arzt Ergebnisse, die den Anschein erweckten, die neue Arznei wirke. Wenn unverblindete Mediziner das gleiche Medikament an Patienten testeten, erbrachte das Medikament dagegen keinen sichtbaren Nutzen.

Selbst in der Königsdisziplin gibt es viele Fehlerquellen

"Nicht in jeder Studie ist eine Verblindung möglich. Ein operierender Arzt zum Beispiel kann nicht verblindet werden", fügt Roman Pokora hinzu. Der Patient selbst bei einem operativen Eingriff aber schon. In einer Studie beispielsweise war eine Kniespiegelung bei der Hälfte der Arthrosepatienten durchgeführt worden, bei der anderen, der Kontrollgruppe, nur eine Schein-OP mit Kurznarkose und Hautschnitt. Teilnehmer aus beiden Gruppen berichteten gleichermaßen über eine verbesserte Kniefunktion und weniger Schmerzen.

Wo die Stichworte "randomisiert" und "doppelblind" auftauchen, sollte den Schlussfolgerungen der Studienautoren jedoch keinesfalls unkritisch gefolgt werden. "Die randomisierte kontrollierte Doppelblindstudie bildet die Grundlage für die Bewertung von Wirksamkeit und Risiko. Es gibt jedoch sehr viele Fehlermöglichkeiten, und es wird viel herumgetrickst", weiß Gerd Antes, Direktor des Deutschen Cochrane Zentrums am Universitätsklinikum Freiburg. Auch laut Ingrid Mühlhauser bedeutet eine solche Studie nicht automatisch die endgültige Wahrheit, weil natürlich manipuliert werden könne. "Dennoch bleiben RCTs unverzichtbar." In den seltensten Fällen hat eine Therapie dramatisch deutliche Effekte. Keiner wird etwa am Nutzen des Defibrillators bei Kammerflimmern oder des Morphiums bei schweren Schmerzen zweifeln. Häufig sind die Effekte, mit denen man es bei Studien zu tun hat, jedoch klein. Manchmal so klein, dass sie sich nur schwer von der Signalstärke der Störfaktoren, dem "Hintergrundrauschen", absetzen.

Eine Möglichkeit, einen gewünschten Effekt bei einer Studie zu verstärken, ist, vermehrt Hochrisikogruppen in die Untersuchung einzubeziehen. Später muss dann aber die Frage beantwortet werden, ob ein eventueller Nutzen auch bei Personen mit niedrigerem Risiko nachweisbar wäre. "Eine korrekte Randomisierung, also die Zuteilung nach dem Zufallsprinzip, schließt manche Trickserei aus. Die gewählte Stichprobengröße, die Menge der Teilnehmer, muss in jedem Fall groß genug sein, um den Einfluss zufälliger Unterschiede zwischen den Gruppen auszuschalten", erklärt Mühlhauser.

Abweichungen vom Studienplan sind häufig

Nur bei etwas mehr als der Hälfte der klinischen Studien wird jedoch die tatsächlich angestrebte Teilnehmerzahl erreicht. Manchmal können nicht genügend Probanden gewonnen werden, manchmal steigen Patienten mittendrin wieder aus. Abweichungen vom eigentlichen Studienplan, bezogen auf die Teilnehmerzahl oder die erhobenen Endpunkte, sind häufig. Eine stichprobenartige Untersuchung von 102 klinischen Studien aus dem Jahr 2004 zeigt, dass bei mehr als der Hälfte mindestens ein primäres Ergebnis verändert, neu eingebaut oder verworfen wurde. Oft wird in den Studien auch gar nicht vollständig beschrieben, was genau wie gemacht wurde. Gerd Antes betont, wie wichtig es ist, eine Studie, bevor sie begonnen wird, exakt zu erfassen. "Solch eine Registrierung (zum Beispiel beim Deutschen Register für klinische Studien) ist wie eine Geburtsurkunde. Irgendetwas einfach unbemerkt über den Haufen zu werfen, geht dann nicht mehr."

James Lind
© Stich nach Gemälde von Sir George Chalmers / public domain
(Ausschnitt)
 Bild vergrößernJames Lind (1716–1794)
Der Schiffsarzt schottischer Abstammung fand durch gezieltes Experimentieren und genaues Beobachten eine Möglichkeit, den gefürchteten Skorbut zu verhindern. Auch in anderer Hinsicht erleichterte er den Seeleuten das Leben an Bord. So führte er etwa Hygienemaßnahmen wie regelmäßiges Lüften unter Deck ein.

Immer wieder wird auch eine ganz generelle Kritik am Ansatz der RCTs geübt und vermehrt die Durchführung anderer Studientypen gefordert. Die Konzentration auf RCTs berge Probleme, und nur ein Teil der medizinischen Fragestellungen könne durch sie überhaupt beantwortet werden, schreiben Martin Eichler und andere Mitarbeiter von der Universitätsmedizin Mainz im "Deutschen Ärzteblatt". "RCTs sind häufig hochselektiv. Sie bilden nicht das typische Patientenkollektiv ab, sondern konzentrieren sich auf jene, die wenige Komorbiditäten (Begleiterkrankungen) haben und so bessere Heilungschancen besitzen. RCTs sind idealisiert und entsprechen nicht der realen Situation. Auch werden Nebenwirkungen häufig nur ungenügend erhoben", meinen die Mainzer.

Eine größere Alltagsnähe und Bedeutung wird daher gelegentlich Beobachtungsstudien und der Erfassung von Routinedaten (Krankenhaus-, Krankenkassenstatistiken, Gesundheitsregistern) eingeräumt.Bei Beobachtungsstudien wird der Mensch lediglich "beobachtet", Daten zu einem oder mehreren Zeitpunkten erhoben, es wird jedoch nicht kontrolliert, experimentell mit einer Intervention eingegriffen. Bei seltenen Erkrankungen (bei denen es vielleicht schwierig ist, genügend Teilnehmer für eine RCT zu gewinnen) können auch Beobachtungsstudien wertvolle Informationen über verschiedene Behandlungen und Ergebnisse liefern. Sie seien jedoch, wie Ingrid Mühlhauser betont, wegen der nicht quantifizierbaren Verzerrungen mit erheblichen Unsicherheiten behaftet.

Chance "Big Data"?

Die Erfassung riesiger Datenmengen kommt der Wahrheit auch nicht unbedingt näher. Die Auswertung von Routinedaten nützt sicherlich Fragestellungen der Epidemiologie oder der Qualitätssicherung. "Als Grundlage für klinische Entscheidungen sind solche Analysen nur mit Vorsicht zu gebrauchen", schreibt Dagmar Lühmann vom Institut für Allgemeinmedizin am Universitätsklinikum Hamburg-Eppendorf. "Big Data" würde oft der Prämisse folgen: "Mehr Daten sind besser als bessere Daten." Dieses datengetriebene Vorgehen ist ein grundsätzlich anderes als bei einer klassischen klinischen Studie. Hier werde vorab eine Hypothese formuliert, ein Studienprotokoll verfasst und eine sorgfältige Fallzahlplanung gemacht, so das Deutsche Netzwerk Evidenzbasierte Medizin.

Jede wissenschaftliche Studie, wie auch immer sie gestaltet ist, ist nur sinnvoll, wenn sie in das komplette verfügbare Wissen zum Thema eingebettet ist. Und gerade hier liegt wohl eine große Hürde in der Medizin. Jeder Studienplanung sollte ein systematischer Überblick, ein "Review", vorausgehen, der nicht nur bestimmte Untersuchungen zum Thema herauspickt, sondern das komplette Wissen. Wäre dem Phase-I-Test des therapeutischen Antikörpers TGN1412 so eine ordentliche Übersicht (experimentelle Ergebnisse an Tieren eingeschlossen) vorausgegangen, wären sechs Probanden während der Studie nicht an einem Zytokinsturm gestorben, schrieben Iain Chalmers und andere Experten vor drei Jahren in "The Lancet".

"Ich glaube, dass Forschungsergebnisse als ein Allgemeingut angesehen werden sollten, das der ganzen Community gehört, und ganz besonders den Patienten"
(Alessandro Liberati)

Wer versucht, sich einen Überblick über den aktuellen Wissensstand zu einem medizinischen Thema zu verschaffen, muss viel Zeit mitbringen und feststellen, dass lange nicht alles, was gemacht wurde, auch publiziert wird. Berichte von mehr als der Hälfte aller klinischen und vorklinischen Studien sind nicht auffindbar. Studien mit positiven Resultaten werden viel eher veröffentlicht als solche mit negativen. Kommt es nicht zum erwünschten Effekt, wird mit der Publikation oft jahrelang gewartet; mit dramatischen Auswirkungen. Wären zum Beispiel sämtliche Studienergebnisse zum Grippemedikament Oseltamivir gleich offengelegt worden, wären nicht weltweit Unsummen in die Anschaffung eines Medikaments mit unklaren und unerwünschten Wirkungen geflossen, das Komplikationen bei Patienten einer Influenza-Pandemie offenbar nicht zwangsläufig verringert.

Der italienische Epidemiologe Alessandro Liberati (1954–2012) hat das Problem der Nichtveröffentlichung am eigenen Leib gespürt. Liberati war am Multiplen Myelom erkrankt und wollte selbst anhand der Studienlage prüfen, ob es gut sei, sich einer zweiten Knochenmarktransplantation zu unterziehen. "Ich wusste, dass es vier abgeschlossene Studien zum Thema gibt, aber ich musste meine Entscheidung ohne das Wissen um die Ergebnisse machen, weil die Studien nicht ordnungsgemäß veröffentlicht waren." Weniger, dafür bessere Studien, "Klasse statt Masse – wider die wertlose Wissenschaft" (Tagungsmotto des Deutschen Netzwerks EBM März 2017 in Hamburg) ist eine Forderung an den forschenden Medizinbetrieb. Eine andere formulierte Alessandro Liberati so: "Ich glaube, dass Forschungsergebnisse als ein Allgemeingut angesehen werden sollten, das der ganzen Community gehört, und ganz besonders den Patienten."