Direkt zum Inhalt

Kausale KI: Künstliche Intelligenz trifft Ursache und Wirkung

Forschende wollen KI-Systemen ein kausales Verständnis vermitteln. Gerade im medizinischen Bereich hätten solche Modelle großes Potenzial.
Eine Struktur, die an eine Doppel-Helix erinnert, mit digitalen Elementen
Es könnte der entscheidende Weg zu wahrer Intelligenz sein: eine kausale KI, die zwischen Ursache und Wirkung unterscheiden kann.

Je mehr Eiscreme in einer Region verkauft wird, desto mehr Fälle von Sonnenbrand gibt es. Menschen, die von diesem Phänomen hören, ist meist sofort klar, dass es sich dabei zwar um eine Korrelation, aber nicht um Kausalität handelt. Schließlich verursacht der Genuss von Eis ganz sicher keinen Sonnenbrand – vielmehr ist eine dritte Variable für beides verantwortlich, nämlich das warme Sommerwetter. Was uns offensichtlich erscheint, stellt KI-Systeme vor große Herausforderungen. Ihnen fehlt ein tieferes Verständnis für die Vorgänge in unserer Welt. Sie erkennen nur Zusammenhänge. Zahlreiche Fachleute arbeiten aktuell daran, das zu ändern – vor allem für neue Erkenntnisse im medizinischen Bereich.

Unter dem Schlagwort »Causal AI« lassen sich unterschiedliche Techniken zusammenfassen, die helfen sollen, KI-Systemen ein kausales Verständnis zu vermitteln. Manche Varianten kombinieren dazu herkömmliche Methoden des maschinellen Lernens, um mit ihnen kausale Schlüsse abzuleiten. Auf diese Weise lässt sich vergleichsweise einfach neue Information aus bestehenden medizinischen Daten folgern – etwa, ob ein Medikament oder eine Therapieform wirksam ist. In diesen Fällen stammt das Verständnis für die kausalen Zusammenhänge allerdings noch von menschlichen Experten; die KI sucht lediglich nach den dazugehörigen Korrelationen.

Deutlich schwieriger ist es dagegen, Modelle zu entwickeln, die von sich aus Ursachen und Wirkungen erkennen. Denn tatsächlich sind KI-Modelle in der Vergangenheit auf eine ähnlich absurde Korrelation wie jene von Eiscreme und Sonnenbrand hereingefallen. Und gerade im medizinischen Bereich können solche Fehler drastische Folgen haben.

Falscher Fokus

Im Jahr 2021 versuchten Fachleute einem KI-Modell beizubringen, auf Röntgenaufnahmen einen so genannten Pneumothorax zu erkennen. Dabei handelt es sich um eine Ansammlung von Luft neben der Lunge, die teilweise lebensgefährlich sein kann. Sie übergaben ihrem Modell zahlreiche beschriftete Röntgenbilder, anhand derer es lernen sollte, das Gezeigte richtig zu klassifizieren: Pneumothorax oder kein Pneumothorax. Als sie das trainierte Programm mit neuen Bildern testeten, schien es zunächst gut zu funktionieren.

Doch dann wertete das Team aus, auf welche Bildbereiche sich das KI-Modell für seine Folgerungen fokussierte. Wie sich herausstellte, suchte das Programm die Röntgenbilder nach Schläuchen ab: Die Aufnahmen, mit denen die KI trainiert wurde, waren allesamt nach der Diagnose eines Pneumothorax entstanden, als die Ärzte die Patienten schon mit Schläuchen behandelt hatten. »Das System hat sich also auf ein Feature verlassen, das selbst eine Auswirkung der Diagnose war – und keine Ursache dafür«, erklärt der Informatiker Julius von Kügelgen, der an der ETH Zürich der Frage nachgeht, wie sich automatisiert kausale Informationen aus Daten gewinnen lassen.

»Die KI-Systeme nehmen eine Abkürzung«Julius von Kügelgen, Informatiker

Eigenschaften wie die Schläuche auf den Röntgenbildern bezeichnen Fachleute als »spurious noncausal features«, das heißt falsche, nichtkausale Merkmale. Diese führen KI-Modelle immer wieder in die Irre. Sie mögen in einem bestimmten Trainingssatz bei der Klassifikation helfen, hindern die Modelle jedoch daran, die eigentliche Ursache zu erkennen. »Die Systeme nehmen dann quasi eine Abkürzung«, sagt von Kügelgen. »Aber da es sich nicht wirklich um Ursachen handelt, sind die Ergebnisse auch nicht stabil.« In diesem Fall hatte das keine schlimmen Folgen, denn der Fehler fiel auf, bevor das Programm in der Praxis eingesetzt wurde. Falls eine KI-Anwendung allerdings – gerade im medizinischen Bereich – unerkannt Korrelationen und Kausalitäten verwechselt, könnte das schwer wiegende Folgen haben.

Diversität hilft

Um das zu vermeiden, sollte man unter anderem die Trainingsdaten diversifizieren. Wären darunter etwa auch Röntgenbilder gewesen, die vor dem Einführen der Schläuche gemacht wurden, hätte sich das Modell bei seinen Diagnoseversuchen nicht auf deren Anwesenheit verlassen können. Durch vielfältigere Daten könnten die tatsächlichen Gründe ins Zentrum der Aufmerksamkeit geraten, weil echte kausale Zusammenhänge unter veränderten Rahmenbedingungen in der Regel bestehen bleiben. »Deshalb suchen wir nach Invarianzen, die in mehreren Datensätzen und unter verschiedenen Bedingungen stabil bleiben«, erläutert von Kügelgen. »Denn das ist immer ein guter Hinweis darauf, dass es sich um etwas Kausales handeln könnte.«

Jede Form von Heterogenität kann demnach nützlich sein, um Kausalitäten aufzuspüren. Unglücklicherweise basiert aber ein Großteil von KI und maschinellem Lernen nach wie vor auf so genannten IID-Daten (independent and identically distributed data). Ein klassisches Beispiel für solche Daten sind aufeinander folgende Würfelwürfe: Die Ergebnisse sind alle unabhängig voneinander und in ihrer Gesamtheit gleich verteilt. Nichts anderes erhält man, wenn Fachleute lauter Bilder aus ein und demselben Röntgenapparat unter immer gleichen Bedingungen für das Training eines Programms nutzen. »Eine KI zu bauen, die die Wahrscheinlichkeiten für die Ausgänge eines Würfelwurfs erlernt, ist keine besondere Herausforderung«, stellt von Kügelgen fest. »Interessanter ist es, mit dieser Annahme zu brechen und auf diverse Daten zu setzen.«

Und die sind eigentlich leicht zu bekommen. Schließlich ist die echte Welt einem ständigen Wandel unterworfen. Reale Daten sind nur sehr selten gleich verteilt, sondern verändern sich mit der Zeit immer ein wenig. »Wichtig wäre, all diese Daten nicht einfach in einen großen Topf zu werfen, einmal umzurühren und das dann als einen großen Datensatz zu behandeln, sondern diese Unterschiede als potenzielles Lernsignal wertzuschätzen«, sagt von Kügelgen. Man sollte dem Modell also die unterschiedliche Herkunft der Daten nicht verschweigen. Stattdessen könne man sie betonen, um sie als zusätzliches Kriterium für das Training nutzbar zu machen.

Ein weiterer Ansatz, um KI-Modellen ein kausales Verständnis zu übermitteln, ist das »Causal Representation Learning«. Dort versuchen Forschende aus hochdimensionalen Daten auf eine zu Grunde liegende, kleinere Anzahl abstrakterer Variablen zu schließen, in denen sich die eigentliche Kausalität abspielt. Ein Beispiel für hochdimensionale Daten könnten die Millionen Pixel eines Bilds sein; die kausalen Variablen wären dann die dargestellten Objekte, die irgendwie interagieren. Dieser und ähnliche Forschungsbereiche sind aber noch relativ jung, so dass es nur wenige substanzielle Ergebnisse gibt.

Klinische Studien simulieren

Während von Kügelgen und seine Kollegen daran arbeiten, KI-Modellen eine Art Sinn für kausale Zusammenhänge zu verleihen, gehen Forscher wie Stefan Feuerriegel in Sachen Causal AI andere Wege. Als Teil eines internationalen Teams hat er im Jahr 2024 im Fachjournal »Nature Medicine« die Möglichkeiten von kausalem maschinellem Lernen in der Medizin ausgelotet. Die von der Forschungsgruppe untersuchten Modelle hatten während ihres Trainings keinerlei Berührungspunkte mit Kausalität, sondern werden bloß im Nachhinein eingesetzt, um kausale Zusammenhänge aufzuspüren. »Diese Modelle sind nicht kausal in dem Sinn, dass sie selbstständig in Datensätzen kausale Effekte erkennen«, erklärt Feuerriegel, der an der Ludwig-Maximilians-Universität München das Institut AI in Management leitet. »Sondern sie werden kausal, weil wir im Vorfeld Annahmen treffen und unser Problem schon kausal darstellen.«

Im Wesentlichen geht es ihm und seinen Kolleginnen und Kollegen darum, mit bereits bestehenden Daten neue klinische Studien zu simulieren, um etwa die Wirksamkeit von Medikamenten zu untersuchen. Bei solchen Studien werden Patienten normalerweise zufällig in zwei Gruppen unterteilt – eine erhält das echte Medikament und die andere ein Placebo – und dann beobachtet. So lässt sich jeder statistisch signifikante Unterschied zwischen den Gruppen direkt auf das Medikament als Ursache zurückführen.

Solche Untersuchungen mit bereits existierenden Patientendaten durchzuführen, ist jedoch nicht ganz so einfach. Zwar ist es ohne Weiteres möglich, auch hier Gruppen zu bilden, von denen eine in der Vergangenheit ein bestimmtes Medikament bekam, etwa gegen Diabetes, und die andere nicht. Da die darauf folgende Entwicklung bekannt ist, lassen sich KI-Modelle darauf trainieren, den Ausgang mit und ohne Medikation vorauszusagen. Das Problem ist allerdings: Die Einteilung der Gruppen erfolgt in diesem Fall nicht zufällig. Das erschwert es, belastbare Rückschlüsse auf die Wirksamkeit eines Medikaments zu ziehen.

So, wie im einleitenden Beispiel die warme Sommerzeit sowohl den höheren Eiscremeumsatz als auch die wachsende Zahl von Sonnenbrand verursacht, könnte es in anderen Fällen ebenfalls einen unbekannten Faktor geben, der sowohl Ursache für den Erhalt des Medikaments als auch für eine schnellere Genesung ist. »Womöglich haben vor allem Menschen mit höherem Einkommen das Medikament bekommen und können sich aus demselben Grund einen gesünderen Lebensstil leisten, der zur Genesung beiträgt«, gibt Feuerriegel zu bedenken. Das Medikament wäre dann im Extremfall gar nicht der Grund für die Genesung, sondern bloß eine Auswirkung des sozioökonomischen Status des Patienten.

»Das Konzept dafür muss sich ein Mensch überlegen«Stefan Feuerriegel, Informatiker

Bei der Auswertung passiv gesammelter Daten ist es deshalb nötig, etwaige Störfaktoren vorab zu identifizieren und darauf zu achten, dass sie gleichmäßig in beiden Vergleichsgruppen verteilt sind. »Das Konzept dafür muss sich ein Mensch überlegen«, sagt Feuerriegel. »Wenn ich aber einen großen Datensatz habe, kann maschinelles Lernen sehr nützlich dabei sein, diese Störfaktoren zu identifizieren und vergleichbare Gruppen zu bilden.« Funktionieren kann das freilich nur dann, wenn die Trainingsdaten auch alle wichtigen Variablen enthalten.

Suizide verhindern

Feuerriegel und sein Team gehen nicht davon aus, dass solche KI-basierten Kausalanalysen die randomisierte, klinische Studie vollständig ersetzen werden. Diese ist und bleibt der Goldstandard in der medizinischen Forschung. Abgesehen vom deutlich höheren Aufwand sind solche klinischen Studien aber manchmal aus ethischen Gründen nicht möglich. Ein Beispiel für so einen Fall ist eine im Jahr 2023 veröffentlichte Studie, die sich der Frage widmete, ob Krankenhauseinweisungen bei depressiven Patienten weitere Suizidversuche verhindern können. »Das sind dringliche Fälle, und da kann man natürlich nicht den Zufall entscheiden lassen, ob ein Patient ins Krankenhaus kommt oder nicht, bloß um eine klinische Studie zu machen«, sagt Feuerriegel. »Das ist ein Paradebeispiel für einen guten Anwendungsfall von kausalem maschinellem Lernen in der Medizin.«

Die Einweisung in ein psychiatrisches Krankenhaus ist in den USA die Standardbehandlung für Patienten, die mit einem hohen Suizidrisiko in die Notfallversorgung kommen. Allerdings sind solche Einweisungen teuer, und ihr Einfluss auf weitere Suizidversuche war wenig bekannt. Um Licht ins Dunkel zu bringen, fütterten die Forschenden ihr KI-System mit den Daten aller Kriegsveteranen, die sich zwischen 2010 und 2015 mit Suizidgedanken oder nach einem tatsächlichen Versuch bei der Veterans Health Administration (VHA) meldeten. Wegen der subjektiven Einschätzung der behandelnden Ärzte wurden rund 70 Prozent in ein Krankenhaus eingewiesen, die anderen nicht. So enthielten die Daten eine Varianz, die es dem Algorithmus ermöglichte, die nötigen Vergleichsgruppen zu bilden.

Wie die Analyse der Daten zeigte, hatte eine Krankenhauseinweisung über alle Patienten gemittelt so gut wie keinen Einfluss auf die Wahrscheinlichkeit für einen weiteren Suizidversuch. Durch die große Datenmenge konnte das KI-System jedoch wichtige Unterschiede innerhalb der Patientenkohorte aufdecken: So verringerte eine Einweisung etwa für jene, die unmittelbar nach einem Suizidversuch zur VHA kamen, das durchschnittliche Risiko für einen weiteren Versuch deutlich, während sie für andere das Risiko teilweise sogar erhöhte. Den Forschenden zufolge ließen sich mit individuellen Behandlungsrichtlinien, die anhand ihrer Ergebnisse getroffen werden, die Anzahl der Krankenhauseinweisungen um 13 Prozent verringern und gleichzeitig 16 Prozent der Suizidversuche verhindern.

»Das zeigt, wie kausales maschinelles Lernen unter geeigneten Bedingungen viel individuellere kausale Effekte aufdecken kann als klassische klinische Studien«, erklärt Feuerriegel. »Die untersuchen normalerweise ja nur den aggregierten kausalen Effekt über die gesamte Kohorte.« Ein prominentes Beispiel für einen solchen Fall ist das 2004 erstmals zugelassene Krebsmedikament Cetuximab, von dessen allgemeiner Wirksamkeit die Mediziner zunächst eher enttäuscht waren. Erst als sich im Nachhinein herausstellte, dass es lediglich bei Patienten mit einer bestimmten Art von Mutation wirksam ist, wurde die Zulassung auf diese Patientengruppe beschränkt. Seitdem wird das Medikament erfolgreich eingesetzt. »Das hat man damals noch auf traditionelle Art durch langwierige und aufwändige Studien herausgefunden«, sagt Feuerriegel. »Heute ist unsere Vision, solche Zusammenhänge mit kausalem maschinellem Lernen einfacher und schneller zu finden, um persönlichere Behandlungsempfehlungen geben zu können, für welchen Patienten welches Medikament am besten geeignet ist.«

Dabei ist die voranschreitende Digitalisierung hilfreich, durch die sich immer mehr Daten ansammeln, mit denen sich Modelle füttern lassen. Zudem steigt die Bereitschaft der Menschen, Daten besser aufzubereiten und zentral zu sammeln, um sie der medizinischen Forschung zur Verfügung zu stellen. »Vor fünf Jahren habe ich mich noch nicht getraut, mit Daten aus Deutschland oder der Schweiz zu arbeiten, weil ich befürchtet habe, dass die administrativen Prozesse dafür zu lang sind«, erzählt Feuerriegel. »Mittlerweile bekomme ich aber signalisiert, dass sich das alles stark gewandelt hat.« So gebe es auch in Deutschland bereits große Initiativen, bei denen beispielsweise Universitätskliniken ihre Daten gemeinsam sammeln und für die medizinische Forschung nutzbar machen. Gleichzeitig werde dabei auf die Einhaltung hoher ethischer Standards geachtet, wie der Wissenschaftler betont.

Trotz aller positiven Vorzeichen und des Nutzens, den kausales maschinelles Lernen in weniger heiklen Bereichen bereits bewiesen hat, steht es in der Medizin immer noch am Anfang. Aus Daten, die ohnehin existieren, neue Erkenntnisse zu gewinnen, ist ein verlockender Ansatz.

Ob die Maschinen allerdings jemals in der Lage sein werden, auch ganz ohne menschliche Hilfe kausale Zusammenhänge zu erkennen, ist noch offen. Es wäre ein Riesenschritt hin zu einer künstlichen, allgemeinen Intelligenz, die dem Menschen nicht nur in speziellen Teilbereichen, sondern auf ganzer Linie überlegen ist. So mancher Forscher geht davon aus, dass sie dafür erst einen Körper braucht, mit dem sie die Welt auf eigene Faust erkunden kann – und sich dabei vielleicht auch einfach einmal ein Weilchen in die Sonne legt.

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

  • Quellen

Feuerriegel, S. et al.: Causal machine learning for predicting treatment outcomes. Nature Medicine 30, 2024

Ross, E. L. et al.: Estimated average treatment effect of psychiatric hospitalization in patients with suicidal behaviors. JAMA Psychiatry 81, 2024

Rueckel, J. et al.: Pneumothorax detection in chest radiographs: Optimizing artificial intelligence system for accuracy and confounding bias reduction using in-image annotations in algorithm training. European Radiology 2021, 2021

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.