Open-Source-Software: Jeder kann jetzt Proteine falten
Eines der kniffligsten Probleme der Molekularbiologie ist die Frage, zu welcher Form sich die lange Kette eines Proteins zusammenknüllt. Denn die 3-D-Struktur des Moleküls ist entscheidend für seine Funktion zum Beispiel im menschlichen Körper. Wer sie kennt, kann leichter herausfinden, was ein Protein tut und ob oder mit welchen Wirkstoffen man es beeinflussen könnte.
Dank zweier Spezialprogramme könnten nun zahlreiche Forschungsinstitute auf Antworten hoffen. Denn die Computerprogramme, die diese Struktur mit Hilfe künstlicher Intelligenz präzise vorhersagen, werden der Allgemeinheit kostenfrei zugänglich gemacht. Die eine Software stammt aus den Entwicklungslaboren der Londoner Firma DeepMind. Am 15. Juli veröffentlichte das Unternehmen die quelloffene Version ihres neuronalen Deep-Learning-Netzwerks AlphaFold 2 und erklärte zugleich Details von dessen Funktionsweise im Fachmagazin »Nature«. Die Software ist berühmt für ihren überraschend starken Sieg bei einem Wettbewerb zur Proteinstrukturvorhersage im vergangenen Jahr.
Die andere hat ein weiteres Wissenschaftlerteam entwickelt. RoseTTaFold ist inspiriert von AlphaFold 2 und hat in Fachkreisen bereits an Popularität gewonnen. Bei Tests schneidet sie fast genauso gut ab wie ihr Vorbild. Auch hier veröffentlichten die Entwickler am 15. Juli einen Fachbeitrag, er erschien im Magazin »Science«.
Weil beide als Open-Source-Tools konzipiert wurden, kann die wissenschaftliche Gemeinschaft auf den bestehenden Ergebnissen aufbauen, um noch leistungsfähigere Software zu entwickeln, sagt Jinbo Xu, ein Bioinformatiker von der University of Chicago in Illinois, der an keiner der beiden Arbeiten beteiligt war.
Der Sieg von AlphaFold rüttelte die Szene auf
Um die Form eines Proteins zu bestimmen, verwenden Fachleute seit Jahrzehnten aufwändige experimentelle Techniken, etwa die Röntgenkristallografie und die Kryoelektronenmikroskopie. Das kostet neben viel Zeit häufig auch viel Geld. Zudem eignen sich einige Proteine nicht für derartige Analysen.
Mit dem klaren Sieg im Jahr 2020 sorgte DeepMind für einen regelrechten Schock in der Community. Bei »CASP«, wie die Veranstaltung heißt, geht es darum, allein anhand der Abfolge der Proteinbausteine (die in der biologischen Zelle durch die DNA vorgegeben wird) vorherzusagen, wie sich das Protein faltet. AlphaFold 2 schnitt bei dem alle zwei Jahre stattfindenden Event so gut ab, dass der Mitbegründer des Wettbewerbs erklärte: »In gewisser Weise kann man das Problem als gelöst betrachten.«
Die Firma hat allerdings den Ruf, sich mit Details zu ihren Systemen bedeckt zu halten. Zu AlphaFold 2 gab es lediglich eine kurze Präsentation bei CASP am 1. Dezember. DeepMind stellte einen Fachaufsatz mit mehr Einblicken in die Funktionsweise in Aussicht und dass die Software allgemein zugänglich sein würde, viel mehr aber nicht.
»Es herrschte eine regelrechte Untergangsstimmung im Fach«, sagt David Baker. Der Biochemiker an der University of Washington in Seattle leitet das Team, das RoseTTaFold entwickelt hat. »Wenn jemand das Problem, an dem man arbeitet, gelöst hat, aber nicht offenlegt, wie er es gemacht hat, wie soll man dann weiter daran arbeiten?«
»Ich fühlte mich damals, als hätte ich meinen Job verloren«, sagt die Chemieinformatikerin Minkyung Baek, ein Mitglied von Bakers Team. Aber DeepMinds Abschneiden spornte auch zu neuen Ideen an, die Baek unbedingt erforschen wollte. So machte sie mit Baker und weiteren Kollegen ein Brainstorming: Wie kann man mit AlphaFold 2 gleichziehen?
Laut ihrer Analyse verdankt AlphaFold 2 seinen Erfolg einer Reihe von Fortschritten. Dazu zählt etwa die Art und Weise, wie das Netzwerk bei seinen Berechnungen Informationen über bekannte, evolutionär verwandte Proteine nutzt. Auch kann es Zwischenergebnisse zu einzelnen Abschnitten des Moleküls heranziehen, um andere Teile vorherzusagen.
Der direkte Vergleich mit AlphaFold 2 zeigte, dass Baek, Baker und Team mit ihrer eigenen Entwicklung vieles richtig gemacht hatten: RoseTTaFold schnitt nun deutlich besser ab als andere CASP-Teilnehmer und immerhin fast so gut wie AlphaFold 2. Warum sie mit der DeepMind-Software nicht gleichauf lagen, ist noch offen. Möglicherweise fehlt der Gruppe das geballte KI-Knowhow, das DeepMind auffahren kann, sagt Baek. »Wir haben gar keine Deep-Learning-Ingenieure in unserem Labor.« Das vermutet auch der Chicagoer Informatiker Xu. Zudem gebietet DeepMind über deutlich mehr Rechenleistung als andere Gruppen.
AlphaFold 2 ist 16-mal schneller geworden
DeepMind hat AlphaFold 2 inzwischen verschlankt. Früher rechnete das Netzwerk für manche Strukturen im CASP-Wettbewerb tagelang. Die Open-Source-Version sei nun etwa 16-mal schneller, sagt John Jumper, der Chefwissenschaftler des AlphaFold-Projekts. Das Programm kann darum binnen Minuten oder Stunden die gesuchten Strukturen generieren, je nachdem, wie groß das Protein ist. Ähnlich schnell ist auch RoseTTaFold.
Der RoseTTaFold-Server hat die Struktur von mehr als 5000 Proteinen vorhergesagt, die von etwa 500 Personen eingereicht wurden
Obwohl der Quellcode für AlphaFold 2 frei verfügbar ist – übrigens auch für kommerzielle Unternehmen –, dürfte er jemandem, der kein technisches Fachwissen hat, wenig nützen. Bislang hat DeepMind nur ausgewählte Fachleute und Organisationen bei der Anwendung unterstützt, darunter die Genfer Initiative »Drugs for Neglected Diseases« (Wirkstoffe für vernachlässigte Krankheiten). Künftig solle der Zugang aber noch deutlich erweitert werden, sagt Pushmeet Kohli, der die Abteilung AI for Science bei DeepMind leitet. »Es gibt noch viel mehr, was wir in diesem Bereich vorhaben.«
Bakers Team hat nicht nur den Code für RoseTTaFold frei zugänglich gemacht, sondern auch einen Server eingerichtet, in den Forscher eine Proteinsequenz eingeben können, um eine vorhergesagte Struktur zu erhalten. Seit dem Start im letzten Monat hat der Server die Struktur von mehr als 5000 Proteinen vorhergesagt, die von etwa 500 Personen eingereicht wurden, sagt Baker.
Da nun der Code für beide Programme frei verfügbar ist, könne der Rest der Fachwelt das Erreichte aus- und weiterbauen, sagt Xu. Vielleicht lassen sich so auch Proteinstrukturen in den Griff bekommen, an denen AlphaFold 2 bislang scheiterte. Extrem spannend wäre es beispielsweise, die Struktur eines Komplexes aus interagierenden Proteinen vorherzusagen, oder die Software beim Design neuer Proteine, etwa als medizinische Wirkstoffe, einzusetzen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.