Direkt zum Inhalt

Künstliche Intelligenz: KI gelingt simultane Übersetzung von mehr als 100 Sprachen

Der Traum vom Babelfisch ist zum Greifen nah: Der Tech-Konzern Meta stellt ein neues KI-Modell vor, das Gesprochenes in wenigen Sekunden in dutzende andere Sprachen übersetzt.
Zwei Kopfhörer und ein Audiomixer für Simultanübersetzung liegen auf einem Tisch
KI statt menschlicher Simultanübersetzung: In allen Sprachen der Welt einfach drauflossprechen und alles verstehen zu können, könnte bald Wirklichkeit werden.

Im Sciencefiction-Klassiker »Per Anhalter durch die Galaxis« beschreibt Douglas Adams einen Babelfisch: ein kleines Lebewesen, das man sich ins Ohr steckt, damit es munter alle möglichen Sprachen ineinander übersetzt. Diese fantastische Vision ist nun ein Stück realer geworden.

Forschende des Tech-Giganten Meta haben jetzt ein KI-System vorgestellt, das Gesprochenes aus mehr als 100 Ausgangssprachen quasi simultan in 36 verschiedene Sprachen übersetzen kann. Das System SEAMLESSM4T (Massively Multilingual and Multimodal Machine Translation) kann auch Sprache in Text, Text in Sprache und Text in Text übersetzen, wie die Fachleute in einer im Fachmagazin »Nature« erschienenen Studie berichten.

Das Unternehmen Meta, das Social-Media-Plattformen wie Facebook, Threads, WhatsApp und Instagram betreibt, stellt SEAMLESSM4T als Open-Source-System für andere Forschende zur Verfügung, damit diese darauf aufbauen können. Die Firma hatte zuvor bereits das großes Sprachmodell LLaMA, ein Konkurrenzprodukt zu GPT, erfolgreich für Entwicklerinnen und Entwickler weltweit freigegeben.

Ein Mangel an Daten

Der Bereich der maschinellen Übersetzung hat in den letzten Jahrzehnten enorme Fortschritte gemacht. Großen Anteil daran haben neuronale Netze, die mit riesigen Datensätzen trainiert werden und so die Feinheiten unterschiedlicher Sprachen zunehmend besser beherrschen. Während es aber Trainingsdaten für stark verbreitete Sprachen wie Englisch im Überfluss gibt, sieht es für viele weitere ganz anders aus. Diese Ungleichverteilung hat die Fähigkeiten der maschinellen Übersetzungsprogramme in der Vergangenheit deutlich beschnitten. »Das betrifft alle Sprachen, die nur selten im Internet vorkommen«, schreibt die Informatikerin Allison Koenecke von der Cornell University in Ithaca, New York, in einem begleitenden Artikel zur Studie.

Um SEAMLESSM4T zu entwickeln, baute das Team von Meta auf früheren Arbeiten auf, darunter das Projekt »No Language Left Behind«, das Texte in etwa 200 Sprachen übersetzt. Ausgenutzt wird dabei, dass die Mehrsprachigkeit von Übersetzungssystemen auch die Übersetzung von Sprachen mit begrenzten Trainingsdaten verbessern kann.

Das Meta-Team sammelte im Internet und in Archiven mehrere Millionen Stunden an Audiodateien in verschiedenen Sprachen und kombinierte sie mit von Menschen erstellten Übersetzungen und Transkripten. Darüber hinaus trainierten die Forschenden ein KI-Modell darauf, übereinstimmende Inhalte in den Daten zu identifizieren. Auf diese Weise konnten sie rund eine halbe Million Stunden Ton und Text miteinander verknüpfen und jeden Ausschnitt aus einer Sprache automatisch mit seinem Gegenstück in einer anderen Sprache abgleichen.

Sprache zu Sprache

SEAMLESSM4T kann Gesprochenes simultan übersetzen, ohne es vorher in eine geschriebene Form umzuwandeln. Für die Audioproduktion wird ein Sprachsynthesizer verwendet, der Gesprochenes aus 101 verschiedenen Sprachen übersetzen kann. Die Ausgabe ist aber bisher nur in 36 Sprachen verfügbar. Das System kann auch andere Übersetzungsaufgaben leisten, etwa Text in Sprache überführen.

Wie die Informatikerin Marta Costa-jussà von Meta erklärt, erreichten sie und ihr Team dieses Ergebnis nicht nur, indem sie ein mehrsprachiges System entwickelten. Entscheidend für den Prozess sei auch die Integration verschiedener Text- und Sprachkombinationen gewesen. »Die sind der Schlüssel zur Verbesserung«, sagt sie. Die Zeitverzögerung bei der Übersetzung betrage in der Regel nur wenige Sekunden und sei daher mit der Leistung professioneller menschlicher Übersetzer vergleichbar, fügt sie hinzu.

Die Autorinnen und Autoren erklären, dass sie das System feinabgestimmt haben, um geschlechtsspezifische Verzerrungen und »zusätzliche Toxizität« zu begrenzen – zum Beispiel, wenn eine automatische Übersetzung anstößige Formulierungen enthält, die nicht dem Originalwortlaut entsprechen. Begriffe, die in einer Sprache geschlechtsneutral sind (wie »nurse« im Englischen), werden nicht in geschlechtsspezifische Ausdrücke in anderen Sprachen übersetzt (wie das deutsche Wort »Krankenschwester«).

»Ich würde mir wünschen, dass viel mehr darüber diskutiert wird, wie wir diese Systeme bewerten«Sabine Braun, Übersetzungswissenschaftlerin

Um potenzielle negative Wirkungen solcher maschinellen Übersetzungen bestmöglich zu vermeiden, sind aber weitere Schritte nötig, erklärt Koenecke in ihrem Artikel: »Die Entwickler sollten überlegen, wie sie die Grenzen des Modells hervorheben.« So könne man auf eine Ausgabe ganz verzichten, wenn die Genauigkeit in Zweifel steht.

»Das Projekt ist ein äußerst interessantes und wichtiges Unterfangen«, sagt die Übersetzungswissenschaftlerin Sabine Braun von der britischen University of Surrey in Guildford. Allerdings sollte man die maschinelle Übersetzung genauer unter die Lupe nehmen, bevor man sie auf breiter Basis einsetze, warnt sie. Insbesondere in kritischen Berufen wie in der Medizin oder im Rechtswesen mahnt sie zur Vorsicht: »Ich würde mir wünschen, dass viel mehr darüber diskutiert wird, wie wir diese Systeme bewerten.«

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

  • Quellen

SEAMLESS Communication Team: Joint speech and text machine translation for up to 100 languages. Nature 637, 2025

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.