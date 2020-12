»In ein paar Wochen werden wir das menschliche Proteom entschlüsselt haben« (Demis Hassabis)

Der Wettbewerb nutzt den so genannten »Global Distance Test« (GDT), eine Metrik, die die Ähnlichkeit zweier Proteinstrukturen misst – etwa einer vorhergesagten (modellierten) und einer experimentell ermittelten. Die Metrik reicht von 0 bis 100. Das neue AlphaFold-System erreichte einen Medianwert von insgesamt 92,4 GDT über alle 100 Strukturen hinweg. Der durchschnittliche Fehler des Systems beträgt etwa 1,6 Angström – zirka die Breite eines Atoms. Laut Moult gilt ein Wert von rund 90 GDT informell als konkurrenzfähig mit den klassischen Labormethoden.

Proteinkomplexe bereiten nach wie vor Probleme

Das DeepMind-System basiert unter anderem auf einem aufmerksamkeitsbasierten Ansatz: Aufmerksamkeit oder Attention beschreibt im Deep Learning grob gesagt einen ähnlichen Mechanismus wie im menschlichen Gehirn: Wir sind in der Lage, aus einer Fülle an Informationen in kurzer Zeit jene zu wählen, die für eine aktuelle Entscheidung besonders relevant sind, und Unwichtiges nicht zu beachten. Ähnlich hat es die DeepMind-Software laut Jumper auch getan: »Wir haben wahnsinnig viele Informationen, wenn es um die Proteinfaltung geht, Physik, Geometrie, der Einfluss von Aminosäuren untereinander.« Der Weg zur Lösung sei vergleichbar mit dem Zusammensetzen eines Puzzles: »Es entstehen lokale Inseln, an denen Zusammenhänge klar sind, und am Ende füllst du die Lücken.«

CASP-Gründer Moult bestätigt, dass solche Proteine, in denen AlphaFold weiter entfernt von der experimentellen Lösung geblieben sei, unter anderem jene seien, in denen benachbarte Moleküle die Form der Faltung beeinflusst hätten. »Wenn Proteine Komplexe bilden, gibt es beinahe mehr Interaktion zwischen den Untereinheiten als im Protein selbst, das eine dieser Untereinheiten bildet.« Diese sind dann natürlich von einem System des maschinellen Lernens, das die Umgebung nicht kennt, kaum vorherzusagen. »Das ist ein Problem der Methode.« Dennoch ist Deep Learning wohl das Mittel der Zukunft, um die Proteinfaltung zu entschlüsseln: Schon diesmal haben mehr als die Hälfte aller einreichenden Teams Deep Learning genutzt.

Expertinnen und Experten zeigen sich von den Ergebnissen beeindruckt, allen voran Janet Thornton vom European Bioinformatics Institute (EMBL-EBI), die seit 50 Jahren im Bereich des Proteinfaltungsproblems forscht, »also seit es existiert«, sagt sie. Der CASP-Wettbewerb biete einen ziemlich guten Test, um die Qualität der vom Computer erzeugten Vorhersagen zu überprüfen. »Ich dachte nicht, dass dieses Problem zu meinen Lebzeiten noch gelöst wird«, gesteht die Pionierin der strukturellen Bioinformatik, doch jetzt schöpft sie Hoffnung: »Das ist ein riesiger Fortschritt.«

Der Erfolg von DeepMind sei der Start in eine Zukunft, in der »wir besser verstehen, wie wir Menschen funktionieren und wie wir Krankheiten begegnen können«. Schließlich sei zwar das menschliche Genom entschlüsselt, doch um wirklich zu verstehen, was in unserem Körper vorgeht, »müssen wir das menschliche Proteom kennen« – also die dreidimensionalen Strukturen sämtlicher Proteine im menschlichen Körper. Im Falle von Sars-CoV-2 beispielsweise seien bereits 530 Strukturen in der Proteindatenbank gesammelt, »aber von zehn gibt es noch keine dreidimensionale Struktur« – obwohl sie helfen könnten, das Virus besser zu verstehen.

Bei zwei Millionen Sequenzen soll AlphaFold nach der Struktur suchen

Auch für das Design von Medikamenten sei das Wissen um die dreidimensionale Struktur wichtig, genau wie für die Entwicklung »grüner Enzyme«, die beispielsweise Plastik abbauen könnten. Ebenfalls für das Verständnis neurodegenerativer Erkrankungen, bei denen sich Proteine oft nicht so falten, wie sie sollten, sei der Erfolg viel versprechend. Und nicht zuletzt für das Verständnis von Tropenkrankheiten oder seltenen Erkrankungen, an denen noch nicht viel geforscht wurde, weil der klassische Weg, um die Struktur von Proteinen zu entschlüsseln, zu aufwändig ist. »Ihre Ergebnisse zeigen die Macht des maschinellen Lernens«, sagt sie an Jumper gewandt, den leitenden DeepMind-Forscher im aktuellen Projekt, »das ist ein ideales Problem für maschinelles Lernen«.

Das gibt CEO Hassabis die Vorlage für ein vollmundiges Versprechen: »Es sind bereits zwei Millionen Sequenzen bekannt, in ein paar Wochen werden wir das menschliche Proteom entschlüsselt haben.« Wie realistisch das ist, wird sich noch zeigen müssen.

Bevor sie die Leistung von DeepMind bewerten wollen, wünschen sich andere unabhängige Forscherinnen und Forscher allerdings einen genaueren Einblick. Auch wenn Fachleute durchweg beeindruckt sind von den Ergebnissen, betonen sie, dass erst eine wissenschaftliche Veröffentlichung der Ergebnisse es ermögliche, diese einzuschätzen. DeepMind verspricht eine solche Veröffentlichung im Nachgang zum Wettbewerb. »Da würde ich mich über zeitnahe Informationen sehr freuen«, sagt beispielsweise Alexander Schug, Leiter der Forschungsgruppe »Multiscale Biomolecular Simulation« am Karlsruher Institut für Technologie, dem SMC. Auch Rohdaten und der Quellcode des Programms sollten publik gemacht werden. »Dies hat bei der 2018 präsentierten Vorläufervariante von AlphaFold leider etwa 1,5 Jahre gedauert, bis die Veröffentlichung erschienen ist.«

Liegen manche Ergebnisse komplett daneben?

Schug betont zudem, dass die Grenzen des Deep Learnings in der Bioinformatik schwer einzuschätzen seien. So leidet maschinelles Lernen unter dem Problem der Interpretierbarkeit. Neuronale Netze erzielen zwar immer wieder erstaunlich gute Ergebnisse, aber manchmal liegen sie auch komplett daneben. Kennt man das Ergebnis nicht im Vorhinein oder kann seine Qualität auf andere Weise einschätzen, ist das schwer zu überprüfen. »Dort haben einfachere Modelle, die sich direkt interpretieren lassen, deutliche Vorteile«, sagt Schug. DeepMind-Forscher Jumper gibt ebenfalls zu, vor Bekanntgabe der Wettbewerbsresultate nervös gewesen zu sein: Erst mit der Nachricht der Organisatoren konnten sie wirklich sicher sein, dass ihr Ansatz funktioniert hatte.

Zudem benötigt Deep Learning erhebliche Datenmengen als Lernmaterial, was eine Lösung für all jene Fälle erschwert, die seltener vorkommen. Beispielsweise die Frage, wie sich Proteinstrukturen verändern, wenn sich bestimmte Umgebungsbedingungen (zum Beispiel der pH-Wert, die Temperatur oder die Salzkonzentration) ändern, betont Gunnar Schröder, Leiter der Forschungsgruppe Computational Structural Biology am Forschungszentrum Jülich gegenüber dem SMC: »Da solche Informationen nur vereinzelt verfügbar sind und nicht systematisch in Datenbanken hinterlegt sind, ist es für Deep-Learning-Methoden nicht möglich, diese Strukturveränderungen vorherzusagen. Dafür benötigen wir weiterhin Modelle, die auf einer physikbasierten Beschreibung der atomaren Strukturen basieren.«

Nicht zuletzt sei die gesellschaftliche Perspektive relevant, sagt KIT-Forscher Schug: »Wollen wir als Gesellschaft, dass große internationale Technologieunternehmen Forschung zu KI so wesentlich vorantreiben, oder wollen wir in der öffentlichen Forschung an Universitäten und Forschungseinrichtungen unabhängige Kompetenz in der Schlüsseltechnologie KI halten?« Auch wenn die Frage rhetorisch gemeint sein sollte: In diesem Fall hat eines der großen Technologieunternehmen die öffentliche Forschung überholt – und es war nicht einmal knapp. Jenseits der Marketingversprechen von DeepMind scheint die unabhängige Forschung hier einigen Aufholbedarf zu haben.