Direkt zum Inhalt

ESMFold2: Offenes KI-Modell sagt Struktur von einer Milliarde Proteinen vorher

Eine Forschungsorganisation von Facebook-Gründer Mark Zuckerberg hat nun ihren eigenen Atlas zur Vorhersage von Proteinstrukturen vorgestellt. Das KI-Modell hinter dem »ESM Atlas« ist quelloffen und übertrifft andere Datenbanken wie jene von AlphaFold – zumindest bei der Zahl der Vorhersagen. 
Eine Illustration von abstrakten, ineinander verschlungenen Proteinsträngen auf dunklem Hintergrund. Die Stränge sind in leuchtenden Farben wie Blau, Rot und Gelb dargestellt.
Forscherinnen und Forscher sind immer auf der Suche nach neuen Proteinstrukturen. Tools wie ESMFold oder AlphaFold können dabei helfen. (Illustration)

Das bekannte Proteinuniversum ist gerade um einiges größer geworden. Ein neu veröffentlichtes KI-Tool hat einen Atlas mit mehr als einer Milliarde vorhergesagter Proteinstrukturen sowie Milliarden weiterer Proteinsequenzen erstellt.

Der sogenannte ESM Atlas wurde am Mittwoch von Forschern des Chan Zuckerberg Biohub vorgestellt. Die Forschungsorganisation wurde von Facebook-Gründer Mark Zuckerberg und seiner Frau, der Ärztin Priscilla Chan, in San Francisco ins Leben gerufen.

Der neue ESM Atlas übertrifft die AlphaFold-Datenbank bei der Anzahl der vorhergesagten Proteinstrukturen um mehr als 800 Millionen Einträge und eine vorherige Version des ESM Atlas um etwa 300 Millionen. Die Vorhersagen basieren auf ESMFold2, einem KI-Modell, das laut Biohub AlphaFold3 – der neuesten Version des Systems von Google DeepMind – sowie anderen KI-Modellen zur Proteinstrukturvorhersage überlegen ist. 

Vorhersagen zu Antikörpern

ESMFold2 basiert auf einem »Proteinsprachmodell«, das ein Team um Alex Rives, Leiter der Biohub-Wissenschaftsabteilung und Projektverantwortlicher, bereits 2024 vorstellte. Es wurde mit Milliarden von Proteinen aus allen Bereichen des Lebensbaums trainiert, darunter auch »metagenomische« Sequenzen aus Boden, Ozeanen und anderen Umgebungen, die in der AlphaFold-Datenbank fehlen.

Dem Team zufolge übertrifft ESMFold2 andere Methoden, darunter AlphaFold3, bei der Bestimmung der korrekten Struktur von Proteinkomplexen – etwa wenn Antikörpermoleküle an ihre Antigen-Zielmoleküle binden. In ihrem Bericht (PDF) beschreiben die Forscher, wie sie ESMFold2 nutzten, um neue Antikörper und andere Proteine zu entwerfen, die sich besonders gut an Proteine binden, die mit Krebs und anderen Erkrankungen in Verbindung stehen. In Laborversuchen verhielt sich ein Großteil der Strukturen wie vorhergesagt.

Rives’ Team erstellte mit dem Tool einen Atlas, der 1,1 Milliarden Vorhersagen zu Proteinstrukturen sowie Informationen zu 6,8 Milliarden Proteinsequenzen enthält. Rives hofft, dass der frei zugängliche Atlas Forscherinnen und Forschern hilft, Verbindungen zwischen bekannten und unbekannten Bereichen des Proteinuniversums herzustellen. So entdeckten die Wissenschaftler mithilfe des Atlas strukturelle Ähnlichkeiten zwischen CRISPR-Proteinen aus Mikrobenabwehrsystemen und einem 2023 in einem Bodenpilz identifizierten Gen-Editierprotein, das auch in anderen eukaryotischen Arten vorkommt.

Ergänzung zu bestehenden Datenbanken, kein Ersatz

Gemma Atkinson, Biologin an der Universität Lund in Schweden, bezeichnet den neuen Atlas als »eine außergewöhnliche Ressource für die Biologie«. »Es ist spannend zu sehen, wie groß angelegte Proteinsprachmodelle grundlegende Regeln der Proteinbiologie erfassen können.«

Martin Steinegger von der Seoul National University fragt sich vor allem, wie gut ESMFold2 die Struktur von Proteinen vorhersagen kann, die sich deutlich von bekannten unterscheiden. Sein Team hatte festgestellt, dass die erste Version von ESMFold bei ungewöhnlichen Proteinstrukturen, insbesondere aus Metagenomdaten, nicht besonders zuverlässig war.

Der Biologe Sergey Ovchinnikov vom Massachusetts Institute of Technology in Cambridge sieht den ESM Atlas eher als Ergänzung zur weitverbreiteten AlphaFold-Datenbank mit mehr als 200 Millionen Proteinstrukturen denn als Ersatz. Die Vorhersagen von ESMFold2 zu Proteininteraktionen seien beeindruckend, aber nicht überraschend, ergänzt er. Bereits Anfang des Jahres hatte Isomorphic Labs, ein Spin-off von Google DeepMind, in London ein proprietäres Modell vorgestellt, das bei solchen Strukturen deutliche Fortschritte erzielte. Und auch andere Open-Source-Modelle, mit denen das Biohub-Team ESMFold2 nicht direkt verglichen hat, lieferten bereits beachtliche Ergebnisse bei der Vorhersage von Proteininteraktionen.

Weil ESMFold2 vollständig quelloffen ist und keine Einschränkungen hinsichtlich der kommerziellen Nutzung hat, könnte es breite Anwendung finden, sagt Ovchinnikov. »Ich erwarte, dass viele Forscher gespannt sein werden, ESMFold2 auszuprobieren.«

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

  • Quellen
Candido, S, et al., Language Modeling Materializes a World Model of Protein Biology, Biohub, 2026

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.