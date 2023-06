Während die Bedeutung eines Satzes jedoch abstrakt ist, basiert die Funktion von Proteinen auf der Anordnung verschiedener chemischer Gruppen, die durch die Faltung an bestimmten Stellen des Proteins entstehen. Das können etwa Bindungstaschen sein, in denen kleine Moleküle andocken und dort chemische Reaktionen eingehen. Solche Strukturen neu gestalten zu können, ist das große Ziel des Proteindesigns, das mit KI in Reichweite scheint. »In einer Bindungstasche kommen Aminosäuren zusammen, die sonst weit auseinanderliegen«, sagt Höcker. Durch die Faltung des Proteins kommen Abschnitte in engen Kontakt, die in der langen Kette eigentlich weit voneinander entfernt sind. »Das ist ebenfalls vergleichbar mit der Sprache. Auch in einem Satz können sich weit auseinanderliegende Wörter aufeinander beziehen. Modelle wie ChatGPT nutzen solche Zusammenhänge, und das geht mit Proteinen ganz ähnlich.«

Inzwischen gibt es mehrere Sprachmodelle, die künstliche Proteine designen – auch schon für kommerzielle Anwendungen. Allerdings sind die LLMs nicht der einzige Weg, generative KI im Proteindesign einzusetzen. Die zweite bedeutende Strategie, Diffusion genannt, kommt aus der Bildbearbeitung. Vor einigen Monaten machte der Bildgenerator »Stable Diffusion« Schlagzeilen, der Bilder aus reinen Texteingaben generiert.

Proteine per Diffusion

Bei der Diffusion fügt das Programm einem ursprünglichen Datensatz Rauschen hinzu. Anschließend lässt es einen Algorithmus zur Rauschentfernung über die Daten laufen, der aber bevorzugt jenen Teil des Rauschens entfernt, der sich am stärksten von den Trainingsdaten unterscheidet. Nach vielen solcher Zyklen hat das Programm schließlich einen Datensatz erzeugt, der den Trainingsdaten ähnelt. Programme wie Stable Diffusion sind mit Sprachmodellen gekoppelt, um Bilder aus Texteingaben zu generieren. Beim Proteindesign wendet man solche Verfahren ohne diesen Umweg auf so genannte »contact maps« an, die die Wechselwirkungen innerhalb des Proteins beschreiben.

»Man braucht bestimmte Kontakte innerhalb der Aminosäurekette, um das Protein zu falten«, erklärt Höcker. Aminosäuren müssen somit an den richtigen Stellen zueinanderfinden, um das Protein durch chemische Wechselwirkungen zusammenzuhalten. Dieses Kontaktnetzwerk, das die dreidimensionale Struktur des Proteins vorgibt, kann mit KI-Methoden optimiert werden. Neue Strukturen werden sozusagen halluziniert. »Die Software fabuliert herum und guckt, was funktioniert – also wie sie besonders starke Verbindungen herstellen könnte. Wir und andere Arbeitsgruppen haben das schon am echten Protein experimentell geprüft, das funktioniert erstaunlich gut.«

»Viele aktuelle Untersuchungen haben noch gar nicht die nötigen experimentellen Daten, um die Leistung der KI-Verfahren wirklich gut zu beurteilen« Birte Höcker

Besonders geeignet sind solche Diffusionsalgorithmen für Proteine, deren Hauptfunktion darin besteht, andere Proteine zu binden. Zum Beispiel künstliche, antikörperähnliche Moleküle, die an die Rezeptoren von Viren andocken und diese so blockieren. Ein Team um David Baker von der University of Washington nutzt Diffusion, um Bindungsmoleküle für Influenza und Sars-CoV-2 zu erzeugen, die die Viren daran hindern, in die Zelle einzudringen. Letztere sollen noch 2023 in klinischen Studien getestet werden.

Auch viele andere aussichtsreiche KI-Experimente haben diesen Erstkontakt mit der Wirklichkeit noch vor sich. An solchen Praxistests mangelt es bisher oft. »Viele aktuelle Untersuchungen haben noch gar nicht die nötigen experimentellen Daten, um die Leistung der KI-Verfahren wirklich gut zu beurteilen«, sagt Höcker. Denn ein Protein im Computer zu entwerfen ist eine Sache – ob das Ergebnis dann auch in einer echten Umgebung das tut, was es soll, ist eine ganz andere Frage.