Google DeepMind: Wie AlphaGenome die Funktion großer DNA-Abschnitte voraussagt

Ein Forschungsteam von Google DeepMind hat ein KI‑Modell entwickelt, das DNA-Abschnitte von bis zu einer Million Basenpaaren analysiert und daraus ableitet, wie Gene reguliert werden. AlphaGenome kann laut dem Unternehmen zuverlässiger als andere Modelle vorhersagen, wo die DNA abgelesen wird, welche RNA dabei entsteht, wie sich die räumliche Organisation des Erbguts verändert und wie Mutationen diese Regulation beeinflussen. Das Forschungsteam um Žiga Avsec, Natasha Latysheva und Jun Cheng von Google DeepMind hat die Software im Juni 2025 erstmals der Fachwelt vorgestellt und nun seine Ergebnisse in »Nature« veröffentlicht.
AlphaGenome vereint demnach Analysen, die bislang mehrere spezialisierte Modelle erforderten. Die KI sagt zahlreiche Eigenschaften der Genregulation gleichzeitig voraus, darunter die Genexpression, RNA-Spleißen bis hin zur Chromatinzugänglichkeit und der Bindung von Transkriptionsfaktoren. Trainiert wurde AlphaGenome mit umfangreichen Datensätzen aus vier internationalen Konsortien, die diese Merkmale in Hunderten von Mensch- und Mausgeweben experimentell gemessen hatten.
Laut den Autoren sagte AlphaGenome die molekularen Folgen genetischer Varianten präziser voraus als spezialisierte Einzelmodelle. Es erkannte zuverlässig, ob Exons übersprungen werden, Spleißstellen entstehen oder wie sich die DNA-Aktivität ändert. Auch die räumliche Organisation des Chromatins ließ sich damit genauer vorhersagen. Ein Beispiel aus der Studie zeigt, dass AlphaGenome verschiedene Mutationen, die in T‑Zell‑Leukämien das Onkogen TAL1 aktivieren, auf einen gemeinsamen regulatorischen Mechanismus zurückführt und entsprechende Veränderungen in der Chromatinstruktur und Genexpression korrekt berechnet. Julien Gagneur von der Technischen Universität München ordnet gegenüber dem Science Media Center (SMC) das Modell ein: AlphaGenome sei die »Crème de la Crème« aktueller sequenzbasierter Vorhersagemodelle. Besonders die Einzelbasenauflösung und die detaillierte Spleißvorhersage seien ein Fortschritt. Dennoch bleibe es »kein qualitativer Durchbruch«. Schwachstellen sequenzbasierter Modelle – etwa bei der Vorhersage weit entfernter regulatorischer Effekte – bestünden weiterhin.
Ähnlich wie AlphaFold für Proteinstrukturen adressiert AlphaGenome ein zentrales Problem der modernen Biologie, bewegt sich jedoch in einem noch einmal deutlich komplexeren Bereich. Für die Forschung könnte es hilfreich sein, wenn sich dadurch viele bislang getrennte Analysen in einem einzigen Modelllauf bündeln lassen. Dass ein privatwirtschaftliches Unternehmen wie Google DeepMind »ein derart zentrales, leistungsfähiges Modell« entwickelt, sei »aus Sicht der Forschung ambivalent«, sagt Christian Schaaf, Direktor des Instituts für Humangenetik am Universitätsklinikum Heidelberg, gegenüber dem SMC. Der Zugang zu AlphaGenome soll laut Google DeepMind für nichtkommerzielle Forschergruppen über eine Programmierschnittstelle (API) ermöglicht werden.
AlphaGenome reiht sich damit in eine wachsende Klasse moderner KI‑Modelle ein, die versuchen, direkte Zusammenhänge zwischen DNA‑Sequenz und biologischer Funktion abzuleiten. Neu ist vor allem die Kombination aus sehr langen Sequenzen, Einzelbasenanalysen und mehreren molekularen Ebenen in einem System. Laut den Autoren bleibt es dennoch schwierig, Wechselwirkungen zwischen sehr weit voneinander entfernten DNA-Abschnitten vollständig abzubilden oder Gewebespezifität exakt zu treffen. Zudem beschreibt das Modell zunächst molekulare Folgen, nicht klinische Risiken. Künftige Arbeiten sollen breitere Datensätze und zusätzliche Messgrößen einbeziehen. Die Forscher weisen darauf hin, dass AlphaGenome künftig dazu beitragen könnte, die Ursachen genetischer Krankheiten zu lokalisieren, die Entwicklung synthetischer DNA zu steuern und das grundlegende Verständnis des Genoms zu beschleunigen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.