KI: DeepMind will Problem der Proteinfaltung gelöst haben

Welche Struktur hat ein Protein? An dieser Frage beißen sich Biologen seit Jahrzehnten die Zähne aus. Nun hat eine künstliche Intelligenz sensationell gute Resultate erzielt.

von Eva Wolfangel

Die Struktur von Proteinen entscheidet über ihre Interaktionen in der Zelle — © selvanegra / Getty Images / iStock (Ausschnitt)

»Das ist die erste Anwendung künstlicher Intelligenz, die ein ernsthaftes Problem gelöst hat«, sagt John Moult, Biologe an der University of Maryland, über den jüngsten Erfolg der KI-Firma DeepMind. Es ist ein Satz, mit dem man sich im Lager der KI-Vertreter eher keine Freunde macht. Dort hat die künstliche Intelligenz ihre Nützlichkeit natürlich auch vorher schon mehrfach unter Beweis gestellt. Doch Recht hat er in mindestens einem Punkt: Speziell die Firma DeepMind war bislang für ihren spielerischen Zugang zur Materie bekannt. Sie entwickelte beispielsweise ein System, das den weltbesten Go-Spieler schlug. Und danach eines, das sich als bei Weitem bester Schachspieler der Welt entpuppte. Nun jedoch könnte DeepMind ein neues Image bekommen: als diejenige Firma, der es gelang, ein Problem zu lösen, an dem sich Biochemie und Bioinformatik seit 50 Jahren die Zähne ausbeißen.

Es geht dabei um einen zentralen Vorgang allen Lebens auf der Erde. Wenn Zellen Proteine herstellen, reihen sie Aminosäure an Aminosäure, wobei eine lange Kette entsteht, die sich währenddessen von ganz allein zu einem festen Knäuel faltet. Dessen Gestalt ist einzigartig für jedes Protein und entscheidend dafür, wie es sich in der Zelle verhält, welche Funktion es übernimmt oder – im Falle von Krankheiten – wo es Unheil anrichtet.

Die Frage, die Forscherinnen und Forscher seit Langem umtreibt, ist die folgende: Kann man allein anhand der Abfolge von Aminosäuren vorhersagen, wie die finale Gestalt eines Proteins aussehen wird? Das ist der Kern des Proteinfaltungsproblems, das DeepMind jetzt kurzerhand für gelöst erklärt hat.

Die in London ansässige KI-Firma, die wie Google zur Holding Alphabet gehört, ist dabei keineswegs die einzige, die sich um eine Lösung bemüht. Um all die Ansätze vergleichen zu können, hat Moult bereits Anfang der 1990er Jahre einen Wettbewerb ins Leben gerufen. Seit 1994 bekommen nun alle zwei Jahre die am CASP (Critical Assessment of Protein Structure Prediction) teilnehmenden Teams jeweils 100 Aminosäuresequenzen vorgelegt, aus denen sie dann die dreidimensionale Struktur der Proteine vorhersagen sollen. Nun vermelden die Organisatoren des Wettbewerbs einen Durchbruch: Das Programm AlphaFold, das von DeepMind auf der Basis von Deep Learning entwickelt wurde, habe bei 70 der im Wettbewerb zu lösenden 100 Proteinsequenzen die dreidimensionale Struktur so präzise vorhergesagt, wie es bislang nur durch experimentelle Strukturbestimmung möglich war. Ein Meilenstein sei das, sagt Moult in einem digitalen Pressegespräch des britischen Science Media Center.

Die Struktur von Proteinen ist nur schwer zu ermitteln

Der weltweite Kampf gegen das Coronavirus macht deutlich, wie wichtig es wäre, schnell und zuverlässig aus einer bekannten Aminosäuresequenz auf die Struktur des entsprechenden Proteins schließen zu können. Sars-CoV-2 verfügt beispielsweise über ein spezielles Spikeprotein auf seiner Oberfläche. Dessen dreidimensionale Struktur ist Teil der »Erfolgsgeschichte« von Covid-19. Und wer diese konkreten Strukturen kennt und damit ihre Funktionsweise versteht, kann Gegenmaßnahmen entwickeln.

Bislang sind Experten dazu auf experimentelle Verfahren wie die Kristallstrukturanalyse mit Röntgenstrahlen, Cryo-Elektronen-Tomografie oder multidimensionale NMR-Spektroskopie angewiesen. Aufwändig, teuer und langsam ist das.

Doch am Computer ließ sich das Problem nicht lösen. Zwar haben sich über die Jahre die Ergebnisse der Teams beim Wettbewerb CASP langsam verbessert, aber sie waren stets weit entfernt von der Genauigkeit eines experimentellen Ergebnisses. In der 14. Auflage nun, CASP14, soll der entscheidende Durchbruch erzielt worden sein – und das von einem Unternehmen, das erst vor wenigen Jahren auf das Thema aufgesprungen war und sich bisher vor allem Spielen gewidmet hat.

Und so scheint es in der Tat, als würde ein gewisser Minderwertigkeitskomplex von Googles DeepMind abfallen: Im vom britischen Science Media Center organisierten Hintergrundgespräch zum Erfolg verweisen sowohl John Jumper, Senior Researcher bei DeepMind, als auch DeepMind-Gründer und -CEO Demis Hassabis darauf, dass ihre Erfolge nun realer Wissenschaft zugutekommen. »Wir beginnen einen Einfluss auf die experimentelle Biologie zu haben«, sagt Jumper sichtlich bewegt. »Es gab sechs Fälle, bei denen selbst die CASP-Organisatoren noch nicht die Struktur dieser Proteine aus Experimenten kannten, und unsere Modelle haben ihnen geholfen, die Antwort zu finden.« Das sei durchaus persönlich befriedigend.

Davon berichtet auch Andrei Lupas, Direktor des Max-Planck-Instituts für Entwicklungsbiologie in Tübingen gegenüber dem deutschen Science Media Center: Sein Team habe einige der Proteine für den Wettbewerb eingereicht, darunter eines, für das das Team zwar erste experimentelle Daten hatte, »die Struktur aber seit einem Jahrzehnt nicht hatte lösen können. Mit der Vorhersage von AlphaFold als Suchmodell konnten wir die Struktur in einer halben Stunde lösen.«

Raus aus der »Spieleecke«

Auch DeepMind-CEO Hassabis ist es sichtlich wichtig, nun aus der »Spieleecke« herauszukommen. Die Beschäftigung mit Schach und Go sei lediglich ein Zwischenschritt gewesen auf dem Weg zu den Problemen der »realen Welt«. »AlphaFold ist der erste Beweis dieser These«, sagt Hassabis im digitalen Presse-Briefing.

Beim Go hatten die DeepMind-Experten – zumindest laut ihrer eigenen, nicht unumstrittenen Deutung – Erfolg, weil es ihnen gelang, die menschliche Intuition nachzubilden. Dagegen wirkt das Proteinfaltungsproblem nicht wie eines, bei dem Bauchgefühl in welcher Form auch immer weiterhilft. Doch das Gegenteil sei der Fall, erklärt Hassabis. Beim Computerspiel »Foldit« , bei dem man Proteine zu ihrer korrekten 3-D-Struktur falten muss, will er beobachtet haben, wie gute Spieler mit der Zeit eine Intuition entwickelten, die ihnen bei der Lösung geholfen habe. »Sie hatten gelernt, Muster in der Struktur der gefalteten Proteine zu finden«, erklärt Hassabis.

Muster suchen – das ist eine Aufgabe, für die die KI geradezu prädestiniert ist. 2016, im Jahr des Go-Erfolgs, begann sein Team, sich mit der Proteinfaltung zu beschäftigen. DeepMind trainierte ein System des maschinellen Lernens mit Sequenzen und dreidimensionalen Strukturen von 100 000 bekannten Proteinen. Das Problem habe sich bald als harte Nuss erwiesen, berichtet Jumper. Vor zwei Jahren, bei CASP13, hatte DeepMind zwar auch schon zu den führenden Teams gehört, aber die Resultate waren weit weg von der biologischen Realität. Diesmal habe sich das Team mit Biologen, Physikern und Informatikern in einem interdisziplinären Team zusammengetan – und das zeigt schon, dass es bei künstlicher Intelligenz um mehr geht, als Daten in einen Topf zu werfen und das System völlig frei nach Mustern suchen zu lassen.

»In ein paar Wochen werden wir das menschliche Proteom entschlüsselt haben«Demis Hassabis

Der Wettbewerb nutzt den so genannten »Global Distance Test« (GDT), eine Metrik, die die Ähnlichkeit zweier Proteinstrukturen misst – etwa einer vorhergesagten (modellierten) und einer experimentell ermittelten. Die Metrik reicht von 0 bis 100. Das neue AlphaFold-System erreichte einen Medianwert von insgesamt 92,4 GDT über alle 100 Strukturen hinweg. Der durchschnittliche Fehler des Systems beträgt etwa 1,6 Angström – zirka die Breite eines Atoms. Laut Moult gilt ein Wert von rund 90 GDT informell als konkurrenzfähig mit den klassischen Labormethoden.

Proteinkomplexe bereiten nach wie vor Probleme

Das DeepMind-System basiert unter anderem auf einem aufmerksamkeitsbasierten Ansatz: Aufmerksamkeit oder Attention beschreibt im Deep Learning grob gesagt einen ähnlichen Mechanismus wie im menschlichen Gehirn: Wir sind in der Lage, aus einer Fülle an Informationen in kurzer Zeit jene zu wählen, die für eine aktuelle Entscheidung besonders relevant sind, und Unwichtiges nicht zu beachten. Ähnlich hat es die DeepMind-Software laut Jumper auch getan: »Wir haben wahnsinnig viele Informationen, wenn es um die Proteinfaltung geht, Physik, Geometrie, der Einfluss von Aminosäuren untereinander.« Der Weg zur Lösung sei vergleichbar mit dem Zusammensetzen eines Puzzles: »Es entstehen lokale Inseln, an denen Zusammenhänge klar sind, und am Ende füllst du die Lücken.«

CASP-Gründer Moult bestätigt, dass solche Proteine, in denen AlphaFold weiter entfernt von der experimentellen Lösung geblieben sei, unter anderem jene seien, in denen benachbarte Moleküle die Form der Faltung beeinflusst hätten. »Wenn Proteine Komplexe bilden, gibt es beinahe mehr Interaktion zwischen den Untereinheiten als im Protein selbst, das eine dieser Untereinheiten bildet.« Diese sind dann natürlich von einem System des maschinellen Lernens, das die Umgebung nicht kennt, kaum vorherzusagen. »Das ist ein Problem der Methode.« Dennoch ist Deep Learning wohl das Mittel der Zukunft, um die Proteinfaltung zu entschlüsseln: Schon diesmal haben mehr als die Hälfte aller einreichenden Teams Deep Learning genutzt.

Expertinnen und Experten zeigen sich von den Ergebnissen beeindruckt, allen voran Janet Thornton vom European Bioinformatics Institute (EMBL-EBI), die seit 50 Jahren im Bereich des Proteinfaltungsproblems forscht, »also seit es existiert«, sagt sie. Der CASP-Wettbewerb biete einen ziemlich guten Test, um die Qualität der vom Computer erzeugten Vorhersagen zu überprüfen. »Ich dachte nicht, dass dieses Problem zu meinen Lebzeiten noch gelöst wird«, gesteht die Pionierin der strukturellen Bioinformatik, doch jetzt schöpft sie Hoffnung: »Das ist ein riesiger Fortschritt.«

Der Erfolg von DeepMind sei der Start in eine Zukunft, in der »wir besser verstehen, wie wir Menschen funktionieren und wie wir Krankheiten begegnen können«. Schließlich sei zwar das menschliche Genom entschlüsselt, doch um wirklich zu verstehen, was in unserem Körper vorgeht, »müssen wir das menschliche Proteom kennen« – also die dreidimensionalen Strukturen sämtlicher Proteine im menschlichen Körper. Im Falle von Sars-CoV-2 beispielsweise seien bereits 530 Strukturen in der Proteindatenbank gesammelt, »aber von zehn gibt es noch keine dreidimensionale Struktur« – obwohl sie helfen könnten, das Virus besser zu verstehen.

Bei zwei Millionen Sequenzen soll AlphaFold nach der Struktur suchen

Auch für das Design von Medikamenten sei das Wissen um die dreidimensionale Struktur wichtig, genau wie für die Entwicklung »grüner Enzyme«, die beispielsweise Plastik abbauen könnten. Ebenfalls für das Verständnis neurodegenerativer Erkrankungen, bei denen sich Proteine oft nicht so falten, wie sie sollten, sei der Erfolg viel versprechend. Und nicht zuletzt für das Verständnis von Tropenkrankheiten oder seltenen Erkrankungen, an denen noch nicht viel geforscht wurde, weil der klassische Weg, um die Struktur von Proteinen zu entschlüsseln, zu aufwändig ist. »Ihre Ergebnisse zeigen die Macht des maschinellen Lernens«, sagt sie an Jumper gewandt, den leitenden DeepMind-Forscher im aktuellen Projekt, »das ist ein ideales Problem für maschinelles Lernen«.

Das gibt CEO Hassabis die Vorlage für ein vollmundiges Versprechen: »Es sind bereits zwei Millionen Sequenzen bekannt, in ein paar Wochen werden wir das menschliche Proteom entschlüsselt haben.« Wie realistisch das ist, wird sich noch zeigen müssen.

Bevor sie die Leistung von DeepMind bewerten wollen, wünschen sich andere unabhängige Forscherinnen und Forscher allerdings einen genaueren Einblick. Auch wenn Fachleute durchweg beeindruckt sind von den Ergebnissen, betonen sie, dass erst eine wissenschaftliche Veröffentlichung der Ergebnisse es ermögliche, diese einzuschätzen. DeepMind verspricht eine solche Veröffentlichung im Nachgang zum Wettbewerb. »Da würde ich mich über zeitnahe Informationen sehr freuen«, sagt beispielsweise Alexander Schug, Leiter der Forschungsgruppe »Multiscale Biomolecular Simulation« am Karlsruher Institut für Technologie, dem SMC. Auch Rohdaten und der Quellcode des Programms sollten publik gemacht werden. »Dies hat bei der 2018 präsentierten Vorläufervariante von AlphaFold leider etwa 1,5 Jahre gedauert, bis die Veröffentlichung erschienen ist.«

Liegen manche Ergebnisse komplett daneben?

Schug betont zudem, dass die Grenzen des Deep Learnings in der Bioinformatik schwer einzuschätzen seien. So leidet maschinelles Lernen unter dem Problem der Interpretierbarkeit. Neuronale Netze erzielen zwar immer wieder erstaunlich gute Ergebnisse, aber manchmal liegen sie auch komplett daneben. Kennt man das Ergebnis nicht im Vorhinein oder kann seine Qualität auf andere Weise einschätzen, ist das schwer zu überprüfen. »Dort haben einfachere Modelle, die sich direkt interpretieren lassen, deutliche Vorteile«, sagt Schug. DeepMind-Forscher Jumper gibt ebenfalls zu, vor Bekanntgabe der Wettbewerbsresultate nervös gewesen zu sein: Erst mit der Nachricht der Organisatoren konnten sie wirklich sicher sein, dass ihr Ansatz funktioniert hatte.

Zudem benötigt Deep Learning erhebliche Datenmengen als Lernmaterial, was eine Lösung für all jene Fälle erschwert, die seltener vorkommen. Beispielsweise die Frage, wie sich Proteinstrukturen verändern, wenn sich bestimmte Umgebungsbedingungen (zum Beispiel der pH-Wert, die Temperatur oder die Salzkonzentration) ändern, betont Gunnar Schröder, Leiter der Forschungsgruppe Computational Structural Biology am Forschungszentrum Jülich gegenüber dem SMC: »Da solche Informationen nur vereinzelt verfügbar sind und nicht systematisch in Datenbanken hinterlegt sind, ist es für Deep-Learning-Methoden nicht möglich, diese Strukturveränderungen vorherzusagen. Dafür benötigen wir weiterhin Modelle, die auf einer physikbasierten Beschreibung der atomaren Strukturen basieren.«

Nicht zuletzt sei die gesellschaftliche Perspektive relevant, sagt KIT-Forscher Schug: »Wollen wir als Gesellschaft, dass große internationale Technologieunternehmen Forschung zu KI so wesentlich vorantreiben, oder wollen wir in der öffentlichen Forschung an Universitäten und Forschungseinrichtungen unabhängige Kompetenz in der Schlüsseltechnologie KI halten?« Auch wenn die Frage rhetorisch gemeint sein sollte: In diesem Fall hat eines der großen Technologieunternehmen die öffentliche Forschung überholt – und es war nicht einmal knapp. Jenseits der Marketingversprechen von DeepMind scheint die unabhängige Forschung hier einigen Aufholbedarf zu haben.