Direkt zum Inhalt

Künstliche Intelligenz: Das Proteinuniversum in einer Datenbank

Das Deep-Learning-Netzwerk AlphaFold hat strukturelle Darstellungen unzähliger Proteine erstellt. Diese können jetzt in einer Datenbank abgerufen werden.
3-D-Modell eines Proteins
Die künstliche Intelligenz AlphaFold kann die Strukturen fast aller bisher bekannten Proteine voraussagen – wie zum Beispiel die des hier abgebildeten Strukturproteins α-Catenin.

Von heute an wird die Bestimmung der dreidimensionalen Form fast aller der Wissenschaft bekannten Proteine so einfach sein, wie etwas bei Google zu suchen. Forscher haben AlphaFold – ein revolutionäres Netzwerk für künstliche Intelligenz (KI) – eingesetzt, um die Strukturen von etwa 200 Millionen Proteinen aus einer Million Arten von Lebewesen vorherzusagen. Damit sind jetzt fast alle bekannten Proteine auf dem Planeten erfasst.

Die Daten sind in einer riesigen Datenbank frei zugänglich. Diese wurde von DeepMind, dem in London ansässigen Tochterunternehmen von Google, das AlphaFold entwickelt hat, und dem European Molecular Biology Laboratory's European Bioinformatics Institute (EMBL-EBI), einer überstaatlichen Organisation in der Nähe von Cambridge, UK, eingerichtet.

»Man kann sagen, dass es im Wesentlichen das gesamte Proteinuniversum abdeckt«, sagte Demis Hassabis, CEO von DeepMind, bei einer Pressekonferenz. »Wir stehen am Anfang einer neuen Ära der digitalen Biologie.«

Die 3-D-Form oder Struktur eines Proteins bestimmt seine Funktion in den Zellen. Die meisten Medikamente werden auf der Grundlage von Strukturinformationen entwickelt. Genaue Darstellungen sind oft der erste Schritt zu neuen Erkenntnissen über die Funktionsweise von Proteinen.

DeepMind entwickelte das AlphaFold-Netzwerk mit Hilfe einer KI-Technik, die als Deep Learning bezeichnet wird. Die AlphaFold-Datenbank wurde vor einem Jahr mit 350 000 Strukturvorhersagen begonnen, die nahezu alle Proteine von Menschen, Mäusen und 19 anderen häufig untersuchten Organismen abdeckten. Inzwischen ist der Katalog auf rund eine Million Einträge angewachsen.

»Wir sind gespannt auf die Freigabe dieses riesigen Schatzes«, sagt Christine Orengo, eine Computerbiologin am Londoner University College, die die AlphaFold-Datenbank zur Identifizierung neuer Proteinfamilien genutzt hat. »Es ist einfach fantastisch, dass die KI all diese wichtigen Werte für uns vorausberechnet.«

Hochwertige Vorhersagen der Proteinstrukturen

Die Vorstellung von AlphaFold im Jahr 2021 hat unter Forschenden in den Biowissenschaften für viel Aufsehen gesorgt. Das Netzwerk liefert hochpräzise Vorhersagen über die Struktur vieler Proteine. Es stellt auch Informationen über die Genauigkeit seiner Vorhersagen zur Verfügung, so dass die Forscher wissen, auf welche der Vorhersagen sie sich verlassen können. Bisher mussten sie zeit- und kostenaufwändige experimentelle Methoden wie Röntgenkristallografie und Kryo-Elektronenmikroskopie einsetzen, um Proteinstrukturen zu entschlüsseln.

Nach Angaben des EMBL-EBI werden etwa 35 Prozent der mehr als 214 Millionen Vorhersagen als sehr genau eingestuft, was bedeutet, dass sie genauso gut sind wie experimentell ermittelte Strukturen. Weitere 45 Prozent gelten als zuverlässig genug für die meisten Anwendungen.

Viele AlphaFold-Strukturen sind so präzise, dass damit experimentell ermittelte Strukturen ersetzt werden können. In anderen Fällen verwenden Forscher die AlphaFold-Vorhersagen, um experimentelle Daten zu validieren und sie zu verstehen. Schlechte Vorhersagen sind häufig offensichtlich, und einige von ihnen werden durch Unordnung im Protein selbst verursacht. In solchen Fällen hat das Protein keine definierte Form, zumindest wenn es ohne die Anwesenheit anderer Moleküle betrachtet wird.

Die 200 Millionen Vorhersagen, die nun veröffentlicht wurden, basieren auf den Sequenzen einer Datenbank namens UniProt. Vermutlich hatten Wissenschaftler bereits eine Vorstellung von der Form einiger dieser Proteine, da sie in Datenbanken mit experimentellen Strukturen enthalten sind oder anderen Proteinen in solchen Datenbanken ähneln, sagt Eduard Porta Pardo, ein Computerbiologe am Josep Carreras Leukaemia Research Institute (IJC) in Barcelona.

Allerdings neigten solche Einträge dazu, sich auf Proteine von Menschen, Mäusen und anderen Säugetieren zu beschränken, sagt Porta Pardo. Es sei daher anzunehmen, dass die AlphaFold-Datenbank einen bedeutenden Wissenszuwachs bringen werde, da die Einträge von vielen verschiedenen Organismen stammen. »Es wird ein großartiges Hilfsmittel sein. Ich werde es vermutlich herunterladen, sobald es erscheint«, sagt Porta.

Da die AlphaFold-Software schon seit einem Jahr zur Verfügung steht, sind die Forscher bereits in der Lage, die Struktur jedes beliebigen Proteins vorherzusagen. Viele sind jedoch der Meinung, dass die Bündelung von Vorhersagen in einer einzigen Datenbank nochmals Zeit und Geld spart – und eine Menge Ärger. »Es ist eine weitere Einstiegshürde, die beseitigt wird«, sagt Porta. »Ich habe bereits Protein-Modelle genutzt, die mit AlphaFold generiert wurden. Selbst verwendet habe ich das Programm aber noch nie.«

Jan Kasinski, ein Strukturmodellierer am EMBL in Hamburg, der das AlphaFold-Netzwerk 2021 selbst genutzt hat, kann die Erweiterung der Datenbank kaum erwarten. Sein Team hat drei Wochen damit verbracht, das Proteom – die Gesamtheit der Proteine eines Organismus – eines Krankheitserregers vorherzusagen. »Jetzt können wir einfach alle Modelle herunterladen«, sagte er bei der Pressekonferenz.

Neue Forschungsfragen werden möglich

Die Tatsache, dass fast alle bekannten Proteine in einer Datenbank gespeichert sind, wird auch eine Vielzahl neuer Studien möglich machen. Christine Orengos Team hat die AlphaFold-Datenbank zuletzt genutzt, um neue Arten von Proteinfamilien zu identifizieren, nun wollen sie dies in einem weitaus größeren Maßstab tun. Ihr Labor möchte die erweiterte Datenbank etwa nutzen, um die Evolution von Proteinen mit nützlichen Eigenschaften zu verstehen, wie zum Beispiel der Fähigkeit, Plastik zu zersetzen, wie auch solchen mit eher schädlichen Charakteristika, etwa weil sie, Krebs verursachen können. Durch die Identifizierung entfernter Verwandter dieser Proteine in der Datenbank kann die Grundlage für ihre Eigenschaften ermittelt werden.

Martin Steinegger, ein Computerbiologe an der Seoul National University, der an der Entwicklung einer cloudbasierten Version von AlphaFold mitgewirkt hat, freut sich über die Erweiterung der Datenbank. Er ist jedoch der Meinung, dass die Forscher das Programm wahrscheinlich trotzdem weiterhin nutzen müssen. Immer mehr Menschen greifen auf AlphaFold zurück, um vorherzusagen, wie Proteine miteinander interagieren, doch solche Vorhersagen sind in der Datenbank nicht vorhanden. Auch sind noch keine mikrobiellen Proteine in der Datensammlung enthalten, die durch Sequenzierung von genetischem Material aus dem Boden, dem Meerwasser und anderen »metagenomischen« Quellen identifiziert wurden.

Einige anspruchsvolle Anwendungen der erweiterten AlphaFold-Datenbank könnten auch davon abhängen, ob der gesamte Inhalt von 23 Terabyte heruntergeladen wird, was für viele Teams nicht machbar sein wird. Auch die Speicherung in der Cloud könnte sich als kostspielig erweisen. Steinegger hat ein Software-Tool namens FoldSeek mitentwickelt, mit dem strukturell ähnliche Proteine schnell gefunden werden können, wodurch die AlphaFold-Daten erheblich reduziert werden könnten.

Selbst wenn fast alle bekannten Proteine enthalten sind, wird die AlphaFold-Datenbank aktualisiert werden müssen, wenn neue Organismen entdeckt werden. Die Vorhersagen von AlphaFold können sich verbessern, wenn neue Strukturinformationen verfügbar sind. Deep-Mind-CEO Hassabis sagt, man habe sich dazu verpflichtet, die Datenbank langfristig zu unterstützen, zudem könne er sich jährliche Aktualisierungen vorstellen.

Seine Hoffnung sei, dass die verfügbare AlphaFold-Datenbank einen nachhaltigen Einfluss auf die Biowissenschaften hat. »Es wird ein ziemlich großes Umdenken erfordern.«

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte