Direkt zum Inhalt

Unbekannte Substanzen: Was ein Glas Wein über unser Universum verrät

Ein Großteil der chemischen Substanzen auf der Erde ist noch unbekannt. In einem Glas Wein sieht es ähnlich aus. Hilft KI, den molekularen Mikrokosmos endlich zu erobern?
Ein Weinglas, das ein Bild eines leuchtenden, nebligen Weltraumnebels mit funkelnden Sternen und Planeten enthält. Die Darstellung kombiniert die Eleganz eines Glases mit der Weite des Universums, wodurch ein surrealer Effekt entsteht. Der Hintergrund ist schlicht und lenkt den Fokus auf die faszinierende Mischung aus Astronomie und Alltagsobjekt.
Welche Substanzen stecken in einem Glas Wein? Die Frage ist schwerer zu beantworten, als man denkt.

Weine sind ein Universum für sich. Schon ein einzelnes Glas kann angenehm nach Johannisbeere, Kirsche oder Steinfrüchten duften oder intensiv nach Leder oder Holz schmecken. Kennerinnen und Kenner erkennen auf Basis des Geschmacksprofils Herkunft, Boden und Rebsorte, während die Mehrheit eher intuitiv entscheidet, ob der Wein dem eigenen Geschmack entspricht. So kaufen wir jedes Mal die gleiche Flasche, die uns das letzte Mal so gut geschmeckt hat oder uns an einen besonderen Urlaub erinnert. Doch was genau macht Weine so verschieden – und damit jeden so einzigartig? Bis heute können wir diese Frage nicht vollständig beantworten. Warum ist das so?

Die Ursache liegt in den Molekülen, aus denen sich der Wein zusammensetzt. Sie bestimmen, wie er riecht, schmeckt und ob er sich im Mund samtig oder frisch anfühlt. Chemisch lässt sich die Frage daher scheinbar simpel formulieren: Welche Stoffe sind in meinem Wein? Oder allgemeiner: Welche Substanzen stecken in einer Probe?

So einfach die Frage klingt, so kompliziert ist die Antwort. Denn ein einzelnes Glas Wein enthält Hunderte, teils Tausende verschiedene Moleküle. Diese reichen vom Trinkalkohol, dem Ethanol, über bekannte Aromastoffe bis hin zu Substanzen, die nur in winzigen Spuren zu finden oder bislang gar unerforscht sind.

Analytische Chemiker und Chemikerinnen gehen dieser Vielfalt auf den Grund. Mit hochspezialisierten Methoden und Geräten versuchen sie, die einzelnen Bestandteile genau zu identifizieren und zu ermitteln, wie viel davon in einer Probe vorhanden ist. Das gelingt heute etwa mittels Gaschromatografie-Massenspektrometrie (GC-MS). Die Methode trennt zunächst die Probe in ihre verschiedenen Substanzen auf und liefert dann für jede einzelne ein charakteristisches Muster: das Massenspektrum. Dieses Muster enthält zwar viele Informationen über das zugrunde liegende Molekül, lässt sich aber nicht ohne Weiteres in eine vollständige Struktur übersetzen.

Datenbanken erfassen nur einen Bruchteil des chemischen Kosmos

In der Praxis beginnt die Suche nach der Lösung fast immer mit einem Abgleich: Das gemessene Massenspektrum wird mit Referenzspektren bekannter Substanzen verglichen. Stimmen die Muster genau überein, ist die Identität bestätigt. Dieses Verfahren ist zuverlässig, doch es stößt schnell an Grenzen.

Denn zwar sind heute in Datenbanken mehr als eine Milliarde chemische Strukturen katalogisiert. Verlässliche Massenspektren existieren allerdings gerade einmal für wenige Hunderttausend Stoffe: also für deutlich weniger als 0,1 Prozent der bekannten Moleküle. Das Missverhältnis wird noch größer, wenn man die unbekannten Moleküle einbezieht. Die Umweltforschung geht davon aus, dass es auf der Erde deutlich mehr unbekannte Moleküle gibt als bereits erforschte Substanzen. Von vielen dieser Stoffe kennt man somit weder ihre Struktur noch ihre Eigenschaften.

Verlässliche Massenspektren existieren gerade einmal für weniger als 0,1 Prozent der bekannten Moleküle

Klassische Datenbanken bieten demnach zwar eine nützliche Basis für einen ersten Abgleich, erfassen aber nur ein winziges Bruchstück unseres chemischen Kosmos. Selbst wenn alle analytischen Labore der Welt koordiniert arbeiten und jeden Tag Hunderte Spektren neu zuordnen würden, dauerte es mehr als ein Jahrhundert, bis der Rückstand aufgeholt wäre. Und da jeden Tag Hunderte neue Substanzen in Forschungslaboren erzeugt werden, wächst der Abstand währenddessen weiter.

Was steckt in einem Wein? | Um herauszufinden, welche Stoffe in einem Wein enthalten sind, kann man diesen beispielsweise per Gaschromatografie analysieren. Jeder Peak im Chromatogramm gehört zu einer Substanz. Grün markierte Peaks bezeichnen bekannte Stoffe, violett markierte Peaks sind bislang unbekannte Moleküle. Die Aromaeigenschaften einiger bekannter Inhaltsstoffe sind unten gezeigt. Analysiert wurde eine Flasche Scheurebe Spätlese feinherb, Jahrgang 2022, von Weingut Eller aus Rheinhessen.

Wie groß diese Lücke tatsächlich ist, veranschaulicht eine eigene Untersuchung. Für diesen Artikel haben wir einen Weißwein (2022 Weingut Eller, Scheurebe Spätlese feinherb, Rheinhessen) analysiert. Obwohl Wein aus naheliegenden Gründen häufig Gegenstand chemischer Studien ist, blieb der Wissensrückstand spürbar: Wir haben 153 Substanzspuren detektiert, sogenannte Peaks, konnten durch den Abgleich mit Datenbanken aber nur 87 davon identifizieren – das sind 57 Prozent. Mit anderen Worten: Fast die Hälfte der Signale bleibt namenlos.

Häufig müssen Chemikerinnen und Chemiker deshalb Substanzen aufklären, die nicht in einer Datenbank verzeichnet sind. Dies ist etwa der Fall, wenn neue Produkte zugelassen oder Verunreinigungen identifiziert werden müssen. Dann beginnt die eigentliche Detektivarbeit: Fachleute müssen aus dem Massenspektrum einer Substanz deren ursprüngliche Gestalt rekonstruieren.

Massenspektren auswerten: Anspruchsvollste Detektivarbeit 

Ein Massenspektrum liefert zunächst Informationen über die Gesamtmasse eines Moleküls sowie über die Massen der Bruchstücke, in die dieses Molekül bei der Ionisation zerfällt. Aus diesen Informationen erhalten die Fachleute Hinweise auf typische Bindungen und auf besonders stabile Molekülteile, die den Bedingungen im Massenspektrometer standhalten. Aus diesen Fragmenten lassen sich zunächst Teile, dann immer größere Substrukturen des Stoffs ableiten. Anschließend werden mögliche Kombinationen überprüft: Passen die erwarteten Fragmente zu den gemessenen Peaks? Stimmen Masse und Zusammensetzung?

So entsteht Schritt für Schritt ein Bild der gesuchten Verbindung – ähnlich einem Puzzle, dessen Kanten man zuerst erkennt und das man dann vorsichtig um weitere Teile ergänzt. Dieser Prozess ist enorm zeitaufwendig, und die Aufklärung einer einzigen Substanz kann mehrere Stunden dauern, manchmal auch Tage. Für komplexe Proben wie unseren Wein, in dem 66 Verbindungen auf diese Art identifiziert werden müssten, würde eine vollständige manuelle Analyse ungefähr eine Woche beanspruchen. Und selbst dann bleibt Unsicherheit: Um eine Struktur zweifelsfrei zu bestätigen, müssen Fachleute die Substanz im Labor herstellen und deren Spektrum direkt vergleichen – ein Aufwand, der ebenfalls Wochen in Anspruch nehmen kann.

Analyse von Proben mittels Gaschromatografie und Massenspektrometrie

Die Sehnsucht, dieses mühsame Puzzeln zu beschleunigen, ist nicht neu. Schon in den 1960er-Jahren stellte sich ein Forscherteam um den KI-Pionier Edward Feigenbaum und den späteren Nobelpreisträger Joshua Lederberg (1925–2008) in Stanford die Frage, ob sich diese geistige Detektivarbeit automatisieren ließe. Gemeinsam entwickelten sie ein System, das diesen Traum verwirklichen sollte: das Dendral-Projekt.

Der Traum von der automatischen Strukturaufklärung

Dendral war der Versuch, einem Computer beizubringen, zu denken wie Chemiker. Das Programm erhielt unzählige Regeln zur Fragmentierung, Informationen über atomare Bausteine und logische Verknüpfungen zur Anwendung aller Regeln. Es sollte aus einem Spektrum selbstständig mögliche Molekülstrukturen ableiten. Doch bald zeigte sich: Das Regelwerk war zu komplex, und die Kombinationen möglicher Molekülstrukturen erwiesen sich als nahezu unendlich. Schon kleine Moleküle mit wenigen Dutzend Atomen führten zu astronomisch vielen Varianten.

Wenn Menschen Strukturen aus Spektren ableiten können, sollte sich dieser Denkweg auch maschinell abbilden lassen

Dendral konnte einzelne Fälle lösen, blieb aber auf enge Szenarien beschränkt. Zwei Probleme erwiesen sich als grundsätzlich: Erstens war es praktisch unmöglich, alle chemischen Regeln vollständig zu codieren. Zweitens fehlte die Rechenleistung, um Milliarden möglicher Strukturen durchzuprobieren. Das Projekt wurde eingestellt, hinterließ aber eine bleibende Idee: Wenn Menschen Strukturen aus Spektren ableiten können, sollte sich dieser Denkweg auch maschinell abbilden lassen.

Doch heute, 60 Jahre nach Dendral, stehen die Voraussetzungen anders. Fortschritte bei selbstlernenden Algorithmen, umfangreiche Datensätze und eine exorbitant gewachsene verfügbare Rechenleistung haben es ermöglicht, dass Machine-Learning-Modelle heute eigenständig bestimmen, welche zugrunde liegenden Regeln sie lernen müssen.

Basierend darauf griff unser Forschungsteam an der Universität Münster den Faden wieder auf. Schrittweise und über fünf Jahre hinweg entwickelten wir METIS (Molecules from ElecTron Ionizsation Spectra; englisch: Moleküle aus Elektron-Ionisations-Spektren) – ein Modell, das nicht mehr starre Regeln codiert, sondern wiederkehrende Muster und die Regeln der Massenspektren selbstständig lernt. METIS bekommt keine Fragmentierungsregeln einzeln einprogrammiert, sondern sieht Tausende Spektrum-Struktur-Paare, lernt typische Substrukturen und deren Fragmente und kombiniert sie zu »Kandidatenstrukturen«, die es als Lösung vorschlägt. Während des Lernens gruppiert das Modell Fragmente mit ähnlichen Eigenschaften auf einer Art hochdimensionaler »Lern-Landkarte« nahe beieinander – was entscheidend für die schnelle und genaue Arbeitsweise ist (siehe »Wie METIS lernt«). 

Molekül-Vorhersage mit KI |

METIS erstellt Molekülvorschläge nicht direkt als Ganzes, sondern setzt sie Atom für Atom und Bindung für Bindung zusammen – ähnlich wie ein Sprachmodell, das Wörter aneinanderreiht.

Im Fall von 2,3-Butandiol beginnt das Modell, indem es zweimal hintereinander »C« vorhersagt, entsprechend zwei Kohlenstoffatomen der Kette. Wasserstoffatome werden dabei nicht vorhergesagt, sondern später automatisch und nach chemischen Regeln ergänzt. Die Kohlenstoffkette »CC« ergänzt das Modell danach durch eine Hydroxygruppe »(O)«, sodass sich die erste Molekülhälfte abzeichnet. Diese Abläufe wiederholt das Programm und baut damit schrittweise ein valides Molekül auf.

Jeder Schritt basiert auf zuvor gelernten Mustern und Beziehungen zwischen Spektrum und Struktur. Durch berechnete Wahrscheinlichkeiten und eingebaute Zufallsgeneratoren kann es im anschließenden Schritt, dem sogenannten »Sampling«, unterschiedliche Molekülvorschläge erzeugen.

Damit das funktioniert, reichte es nicht, vorhandene Modelle, wie man sie etwa aus der Sprachgenerierung oder Bilderkennung kennt, mit Spektren und Molekülen zu füttern. Denn Spektren sind auf andere Art strukturiert als Sprache, und Moleküle sind keine Bilder. So mussten wir viele Bausteine, von der Datenaufbereitung bis zur Ausgabe der Strukturen, eigens für diese Anwendung neu bauen oder stark anpassen.

Maschinelles Lernmodell sagt Moleküle voraus

Spektren können noch einfach als simple Vektoren oder Zahlenpaare in bekannte Modellarchitekturen eingegeben werden. Das ist für Moleküle nicht ohne Weiteres möglich. Die Herausforderung besteht darin, dass einerseits alle Informationen über die Struktur erhalten bleiben, während andererseits das entstehende Datenmuster nicht zu komplex werden darf.

Eine Methode, die wir auch für METIS verwendet haben, sind sogenannte SMILES-Strings (Simplified Molecular Input Line Entry System; englisch: vereinfachtes System zur Zeileneingabe von Molekülen). Sie stellen Moleküle in einer einzigen Zeile als Text dar. Um das zu ermöglichen, werden Atome und Bindungen wie Worte behandelt und als Zeichen wie »C« oder »=« notiert. Substrukturen formen sich dadurch zu einem Satz, wobei Verzweigungen durch Klammern – vergleichbar mit eingeschobenen Nebensätzen – ausgedrückt werden.

Diese Struktur aus Worten und Sätzen ermöglicht es Forschungsteams wie unserem, leistungsstarke KI-Modell-Architekturen aus dem Bereich der großen Sprachmodelle zu nutzen. Diese generieren dann Moleküle Atom für Atom – wie Sätze aus vielen Wörtern.

Allerdings sind diese Modelle unvorstellbar datenhungrig. Während die GPT-Modelle beim Training auf Billionen Datenpunkte zurückgreifen konnten, sind Datensätze in der Chemie üblicherweise einige Hundert bis Hunderttausend Einträge groß. Um METIS ausreichende Datenmengen zur Verfügung zu stellen, kombinierten wir zunächst öffentliche und frei zugängliche Datenquellen und erwarben kommerzielle Datenbanken von Partnern. Wie sich allerdings schnell zeigte, benötigt man deutlich mehr Spektren, um die Genauigkeit der Modelle derart zu steigern, dass sie sich praktisch anwenden lassen.

Die Lösung: Daten selbst erzeugen. So trugen wir zunächst Sammlungen von bekannten Molekülen zusammen und vermaßen sie über ein Jahr kontinuierlich spektrometrisch. Dank sehr schneller GC-MS-Methoden untersuchten wir alle drei Minuten eine Probe und erstellten daraus einen Datenpunkt. Durch diese Erweiterung und einen Datensatz von mehreren Hunderttausend Spektren konnten wir eine besonders leistungsstarke KI für unser Vorhaben auswählen, anpassen und abschließend trainieren. Auf diese Weise schufen wir ein alltagstaugliches Spezialisten-Modell, das Spektren von unbekannten Substanzen direkt interpretiert und Hunderte Vorschläge in wenigen Sekunden erzeugt.

Lern-Landkarte: Embedding Space

KI-Systeme müssen die Informationen, die sie erhalten, zunächst codieren. Ein Sprachmodell merkt sich keine Sätze direkt, und ebenso wenig speichert METIS einzelne Spektren. Stattdessen werden die Daten zu Informationshäppchen zerschnitten und diese in einen Zahlencode umgewandelt, den man in der Informatik als »Token« bezeichnet. So teilt ein Sprachmodell Sätze in Wörter auf und nummeriert diese durch. METIS zerschneidet das Spektrum in Massen und Intensitäten, die dann in eine einzelne Zahl übersetzt werden.

Token mit ähnlichen Eigenschaften werden in einer Art Landkarte räumlich nahe beieinander »abgelegt«: ähnlich, wie ein Mensch vielleicht Küchenutensilien nach deren Funktion oder Form sortieren würde. Ein Sprachmodell platziert nach diesem Prinzip semantisch ähnliche Worte nahe beieinander; METIS wiederum gruppiert die Signale solcher Molekülfragmente zusammen, die eine ähnliche chemische Bedeutung haben.

Dadurch bilden sich auf der Landkarte Cluster für bestimmte Atomgruppen oder Substrukturen in Molekülen. So werden etwa Signale bei Massen, die häufig auf Alkohole hindeuten, nahe zusammengebracht, eine weitere Gruppe bilden typische Signale von Kohlenstoffgerüsten und so weiter.

Solch eine Lern-Landkarte hat mehrere Dimensionen. Ein mehrdimensionales Küchen-Sortiersystem könnte die Utensilien beispielsweise einerseits nach ihrer Funktion sortieren und so Töpfe und Pfannen nahe zusammenbringen; es könnte aber auch die Form höher priorisieren, sodass etwa Becher und Töpfe nahe beieinander wären. Im Fall von METIS hat der Embedding Space mehr als Hundert solcher Dimensionen und kann dadurch unterschiedliche Beziehungen für gleiche Fragmente abbilden. Durch die Notierung dieser Beziehungen kann METIS rascher erkennen, welche typischen Strukturelemente vorliegen, und anhand eines Massenspektrums schneller und zuverlässiger eine Molekülstruktur vorschlagen.

Was bei GC-MS funktioniert, lässt sich auf andere Verfahren der Analytik übertragen. Infrarot-Spektren (IR) erzählen von Schwingungen bestimmter Bindungen. Nuclear-Magnetic-Resonance-Spektren (NMR, deutsch: Kernspinresonanz) beschreiben Nachbarschaften von Atomen im Molekülgerüst. Liquid Chromatography Mass Spectrometry (LC–MS/MS, deutsch: Flüssigchromatografie-Massenspektrometrie) zeichnet Pfade, auf denen sich ein Ion in Fragmente zerlegt. In all diesen Daten stecken Regeln. Heute lernen Modelle diese Regeln aus Beispielen und schlagen Strukturen vor, die zu den Mustern passen.

KI-Modelle lernen Regeln aus Daten

Forschungsgruppen haben dafür unterschiedliche Schwerpunkte gesetzt. Bei IBM Research arbeitet das Team um Alain Vaucher und Teodoro Laino an Bausteinen für die automatische Interpretation von NMR- und IR-Spektren. In Jena entwickelt die Gruppe um Sebastian Böcker Verfahren, die aus Fragmentserien der LC-MS/MS verlässlichere Strukturhinweise gewinnen. Gleichzeitig sind aus solchen akademischen Entwicklungen Open-Source-Werkzeuge, Softwarepakete für Laborauswertungen und sogar Produkte entstanden. Firmen wie Bright Giant (LC-MS/MS, Sebastian Böcker, Universität Jena) oder ChemInnovation (GC-MS, Philipp Pflüger, Universität Münster) greifen diese Ideen auf, prüfen, wie sie im Alltag funktionieren, und integrieren sie in Arbeitsabläufe. Das kann von der Forschung und Entwicklung bis zur Qualitätskontrolle reichen.

Dabei verfolgen alle Ansätze ein ähnliches Ziel: unbekannte Substanzen schneller und einfacher zu identifizieren. Die Programme schlagen Kandidatenstrukturen vor und nehmen den Menschen dabei den zeitaufwendigsten Schritt ab. Eine Person prüft anschließend die wahrscheinlichsten Möglichkeiten auf Basis ihres Wissens. Zugleich bleiben zwei entscheidende Hürden: Die Treffsicherheit der Modelle ist begrenzt, und es braucht viel Zeit, die KI-Ergebnisse zu verifizieren.

Ein Massenspektrum analysieren |

Das Massenspektrum von 2,3-Butandiol, einer Substanz, die typischerweise bei der Gärung von Wein oder Bier entsteht, zeigt mehrere charakteristische Signale. Das kleine, doch schwerste Signal bei m/z = 90 steht für das intakte Molekül und gibt seine Masse an. Für kleine Massen gibt es nur eine begrenzte Anzahl an möglichen Atom-Zusammensetzungen. Einige dieser Zusammensetzungen wie C7H6 lassen sich nur durch zusätzliches Proben-, Spektren- oder Expertenwissen ausschließen. So lässt sich durch Ausschluss aller anderen Möglichkeiten die Summenformel C4H10O2 ableiten. Mit ihrem hohen Anteil an Sauerstoff (O) und Wasserstoff (H) ist sie typisch für ein Alkohol-Gerüst.

Fasst man alle Hinweise aus dem Massenspektrum zusammen, ergibt sich ein Molekül mit zwei Hydroxygruppen an benachbarten Kohlenstoffatomen: 2,3-Butandiol. Ähnliche Fragmente würde 1,2-Butandiol liefern, unterschiede sich aber in den Intensitäten der Peaks und würde zusätzliche Signale erzeugen.

Der Traum einer vollautomatischen Strukturaufklärung bleibt damit vorerst Zukunftsmusik. Denn ob GC-MS, LC-MS oder NMR: Die Modelle liefern derzeit nur in einem Teil der Fälle die korrekte Struktur. METIS etwa liegt beim ersten Vorschlag in rund einem Drittel der Fälle richtig. Bittet man das Model um seine fünf besten Vorschläge, ist die korrekte Struktur in etwa der Hälfte der Fälle enthalten. Ein gutes Ergebnis, aber eben nicht zuverlässig genug für Routineentscheidungen.

Eine Welt ohne unbekannte Stoffe?

Die Grenzen liegen teils in der Natur der Daten. Manche Moleküle erzeugen Spektren, die sich kaum unterscheiden lassen; andere tauchen so selten auf, dass das Modell sie in den Trainingsdaten nie gesehen hat. Doch selbst »falsche« Vorhersagen sind oft nützlich. Sie enthalten meist Teile der richtigen Struktur und bieten damit einen fundierten Ausgangspunkt für die weitere Analyse. So bleiben erfahrene Fachleute weiterhin unverzichtbar, die manuelle Arbeit verkürzt sich allerdings erheblich.

Ein neuer Engpass entsteht jetzt bei der Strukturvalidierung. Denn jede KI-Hypothese muss geprüft werden – durch Erfahrung, durch Vergleich mit bekannten Fragmentierungsregeln und final durch gezielte Nachmessungen. Erste Ansätze zur automatisierten Überprüfung existieren, doch in der Praxis dominiert noch die klassische Kontrolle von Hand.

Bis wir wirklich verstehen, warum ein bestimmter Wein so unverwechselbar schmeckt oder ob eine komplexe Umweltprobe gefährliche Rückstände enthält, liegen also noch gewaltige Aufgaben vor uns. Es gilt weiterhin, fehleranfällige, teils mehrdeutige Messwerte so zu deuten, dass sich aus ihnen das eine richtige Molekül ergibt, aus einer Zahl möglicher Kombinationen, die astronomisch wirkt. Aber die Voraussetzungen sind besser denn je: genauere Instrumente, wachsende Datensammlungen und leistungsstärkere Modelle, die täglich dazulernen. Zum ersten Mal seit Dendral scheint die vollständige Entschlüsselung unseres chemischen Mikrokosmos zum Greifen nahe.

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

  • Quellen

Alberts, M. et al., ChemRXiv 10.26434/chemrxiv-2023–8wxcz, 2023

Alberts, M. et al., Communications Chemistry 10.1038/s42004–024–01341-w, 2024

Buchanan, B. G., Feigenbaum, E. A., Readings in Artificial Intelligence 10.1016/B978–0-934613–03–3.50026-X, 1981

Dührkop, K. et al., Nature Methods 10.1038/s41592–019–0344–8, 2018

Pflüger, P. M., Elsbecker, T., Wiley Analytica Science News https://analyticalscience.wiley.com/content/article-do/limitations-databases-and-opportunities-artificial-intelligence, 2025

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.