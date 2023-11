Frühe Modelle verlangten von Menschen, dass sie die meisten dieser Daten mit Bezeichnungen klassifizieren. Mit anderen Worten: Der Mensch musste den Maschinen erst beibringen, was wichtig ist. Die nächste Modellgeneration lernte jedoch, sich selbst zu überwachen, also automatisch zu lernen, was wichtig ist (selfsupervised learning). Dabei erstellt sie eigenständig einen Algorithmus, der vorhersagt, welche Wörter in einer Sequenz als Nächstes kommen.

Mit maschinellem Lernen unentschlüsselte Sprachen knacken

2017 entdeckten zwei Forschungsgruppen eine Möglichkeit, menschliche Sprachen ineinander zu übersetzen, ohne dass ein mehrsprachiges Objekt wie der Stein von Rosetta benötigt wird. Die Entdeckung beruhte auf der Umwandlung der semantischen Beziehungen zwischen Wörtern in geometrische Beziehungen. Mit maschinellem Lernen erstellte Modelle sind nun in der Lage, zwischen unbekannten menschlichen Sprachen zu übersetzen, indem sie deren Formen abgleichen – etwa, indem sie anhand der Häufigkeit, mit der Wörter wie »Mutter« und »Tochter« nebeneinander vorkommen, genau vorhersagen, was als Nächstes kommt. »Es gibt eine verborgene Struktur, die uns alle zu vereinen scheint«, sagt Aza Raskin. »Die Tür, um mit maschinellem Lernen Sprachen zu entschlüsseln, von denen wir noch nicht wissen, wie sie zu entschlüsseln sind – diese Tür steht nun offen.«

Zudem erklärt Raskin, dass ein weiterer Meilenstein in diesem Bereich 2020 erreicht worden sei, als die Verarbeitung natürlicher Sprachen begann, alles als Sprache zu behandeln. Nehmen wir zum Beispiel DALL-E 2, eines der KI-Systeme, das auf der Grundlage verbaler Beschreibungen realistische Bilder erzeugen kann. Es ordnet die Formen, die Text darstellen, den Formen, die Bilder darstellen, mit bemerkenswerter Genauigkeit zu – genau die Art »multimodaler« Analyse, die die Übersetzung der Tierkommunikation offenbar erfordert.

Übersetzung von Tierkommunikation erfordert multimodale Analyse

Zahlreiche Tiere verwenden verschiedene Kommunikationsformen gleichzeitig, so wie Menschen beim Sprechen Körpersprache und Gesten verwenden. Alle Handlungen, die unmittelbar vor, während oder nach der Äußerung von Lauten erfolgen, könnten einen wichtigen Kontext für das Verständnis dessen liefern, was ein Tier zu vermitteln versucht. Schon lange haben Fachleute diese Verhaltensweisen in einer Liste, dem so genannten Ethogramm, katalogisiert. Mit dem richtigen Training könnten Modelle des maschinellen Lernens helfen, diese Verhaltensweisen auszuwerten und neue Muster in den Daten zu entdecken. So berichteten Wissenschaftler im August 2022 in der Fachzeitschrift »Nature Communications«, dass ein Modell bislang unerkannte Unterschiede in den Gesängen von Zebrafinken gefunden habe, auf die die Weibchen bei der Partnerwahl achten. Die Weibchen sollen demzufolge Partner bevorzugen, die wie die Vögel klingen, mit denen sie aufgewachsen sind.

Mit der Anwendung Merlin, einer kostenlosen App des Cornell Lab of Ornithology, lässt sich KI-gestützte Analyse bereits zur Identifizierung von Vogelarten nutzen. Um einen Vogel anhand seines Klangs zu erkennen, wandelt Merlin die Aufnahme des Benutzers in ein Spektrogramm um – eine Visualisierung von Lautstärke, Tonhöhe und Länge des Vogelrufs. Das Modell wird mit der Audiobibliothek vom Cornell Lab trainiert, mit der es die Aufnahme vergleicht, um die Vogelart zu bestimmen. Anschließend vergleicht es diese Schätzung mit eBird, der globalen Beobachtungsdatenbank von Cornell Lab, um sicherzustellen, dass es sich um eine Art handelt, die man am Standort der Aufnahme auch erwarten würde. Merlin kann die Rufe von mehr als 1000 Vogelarten mit bemerkenswerter Genauigkeit identifizieren.

Die Welt ist laut, und es ist schwierig, einzelne Stimmen aus der Kakophonie herauszuhören

Doch die Welt ist laut, und es ist schwierig, den Gesang eines einzelnen Vogels oder Wals aus der Kakophonie herauszuhören. Die Schwierigkeit, einzelne Sprecher zu isolieren und zu erkennen (das so genannte Cocktail-Party-Problem), ist seit Langem ein Hindernis beim Bestimmen von Tierlauten. Im Jahr 2021 entwickelte das Earth Species Project ein künstliches neuronales Netzwerk, das in der Lage ist, sich überschneidende Tierlaute in einzelne Spuren aufzuteilen und Hintergrundgeräusche wie Autohupen herauszufiltern – den Open-Source-Code des Projekts veröffentlichte es kostenlos auf GitHub. Dazu wird eine visuelle Darstellung der Geräusche erstellt, anhand derer das neuronale Netz feststellen kann, welcher Pixel von welchem Sprecher stammt. Darüber hinaus hat das Earth Species Project kürzlich ein Basismodell (Foundational Model) entwickelt, das automatisch Muster in Datensätzen erkennen und klassifizieren kann.