Direkt zum Inhalt

Deep Learning: Erkennen KI-Modelle Krankheiten so gut wie Ärzte?

Einer ersten Metaanalyse zufolge sind tiefe neuronale Netze im Auswerten von Bilddaten den Fachärzten ebenbürtig. Da es zu wenig hochwertige Studien gibt, bleibt die Frage aber grundsätzlich offen.
Ein Roboter studiert einen HirnscanLaden...

»Künstliche Intelligenz stellt mindestens ebenso gute Diagnosen wie Ärzte«: Meldungen dieser Art häuften sich in den vergangenen Jahren. Jetzt verkündet ein Forschungsteam, die erste Metaanalyse zu dem Thema durchgeführt zu haben: Die darin getesteten tiefen neuronalen Netze erkannten Krankheiten wie Krebs tatsächlich so gut wie Fachleute. Die Wissenschaftler, überwiegend aus England und darunter einer von der Google-KI-Schmiede DeepMind, fanden aber nur wenige Studien, die überhaupt die nötigen Qualitätskriterien erfüllten.

Die Forschenden sammelten zunächst alle Studien zwischen 2012 und Juni 2019, die grob auf die Fragestellung passten. Sie fanden mehr als 20 000, aber lediglich 69 lieferten genug Daten, um die Trefferquoten zu berechnen. Von diesen hatten wiederum nur 25 ihre neuronalen Netze extern validiert, sie also an Fällen getestet, die nicht zuvor schon zum Trainieren der KI dienten. Und nur 14 davon verglichen die Leistung des Deep-Learning-Modells mit denen der Ärzte an denselben Fällen. Am häufigsten ging es darum, Augenerkrankungen zu erkennen, daneben unter anderem Brust-, Lungen- und Hautkrebs, Herz- und Magen-Darm-Erkrankungen. Zu den verfügbaren Bildern zählten beispielsweise Röntgen- und CT-Aufnahmen sowie Bilder vom Augenhintergrund.

In diesen 14 Studien identifizierte das KI-Modell 87 Prozent der Kranken und 93 Prozent der Gesunden – in etwa ebenso oft wie die medizinischen Fachleute mit 86 Prozent der Kranken und 91 Prozent der Gesunden. Soweit erkennbar, sei KI demnach weder besser noch schlechter darin, medizinische Aufnahmen auszuwerten, urteilt das Team um den Ophthalmologen Alastair Denniston vom University Hospital Birmingham. Für ein finales Urteil sei es aber noch zu früh. Es gäbe viel zu wenig Studien, die die nötigen Qualitätskriterien erfüllen.

Vor allem fehle es an separaten Testdaten sowie an direkten Vergleichen zwischen Mensch und Maschine. Auch entsprächen die Daten oft nicht denen des klinischen Alltags, in dem Ärzte häufig auf zusätzliche klinische Informationen zurückgreifen können. Die meisten Forschungsartikel machten überdies keine Angaben zu fehlenden Werten. Solche Schwächen könnten die Ergebnisse verfälschen und den Transfer in die medizinische Praxis erschweren, warnt Dennistons Kollegin und Erstautorin Xiaoxuan Liu in einer Pressemitteilung. Die zuständige US-Behörde für das Gesundheitssystem habe schon 30 KI-Algorithmen zugelassen. Die wahre diagnostische Kompetenz von Deep Learning bleibe aber weiter ungewiss.

40/2019

Dieser Artikel ist enthalten in Spektrum - Die Woche, 40/2019

Lesermeinung

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnervideos