Sprachtranskription: Computer erstmals besser als der Mensch
Wissenschaftler von Microsoft Research haben eine Software entwickelt, die Alltagskonversationen mindestens genauso gut in Text übersetzen kann wie menschliche Profis – bei Tests schnitt das Programm sogar insgesamt ein bisschen besser ab als der Mensch.
Der Rekord gelang dem Team um Geoffrey Zweig allerdings nur durch den Nachweis, dass die tatsächliche menschliche Fehlerquote viel höher ist als lange angenommen. Bislang hieß es, rund vier Prozent der Wörter oder Ausdrücke in einem Gespräch würden von Menschen falsch verstanden und/oder verschriftet. Die Forscher spannten nun jedoch den microsoftinternen Transkriptionsservice ein und kamen auf eine Fehlerquote von 5,9 bis 11,3 Prozent. Ersteres galt bei Telefongesprächen zu einem bestimmten Thema, Letzteres bei informellen Telefongesprächen unter Familienangehörigen. Beide Aufzeichnungen stammten aus einem standardisierten englischsprachigen Datensatz von mehreren tausend Stunden Audiomaterial, anhand dessen Forschergruppen ihre Software trainieren und die Ergebnisse vergleichen können.
Die Ergebnisse des Microsoft-Programms waren in beiden Fällen besser, wenn auch jeweils nur um weniger als ein Prozent. Allerdings unterschieden sich die Arten von Fehlern, die Mensch und Maschine machten. Insbesondere verwechselte das automatisierte System ein zustimmendes "Aha", das den Sprecher zum Weiterreden auffordert, mit dem "Äh", der "gefüllten Pause", die signalisiert, dass eine Äußerung noch nicht zu Ende ist. Dass der Computer hier so schlecht abschnitt, könnte aber auch daran liegen, dass diese Elemente in der Ausgangstranskription nicht einheitlich verschriftet worden waren und das System somit falsch lernte. Was weitere häufige Fehler angeht, ähneln sich Mensch und Maschine erstaunlich stark. Hier wurden beispielsweise "is" und "was" verwechselt oder "a" und "the". Wie die Maschine bei seltenen Begriffen abschnitt, erläutern die Forscher nicht. Hier könnte ein anderer bedeutsamer Unterschied zu Tage treten, denn in solchen Fällen kann ein Mensch Doppeldeutigkeiten durch Hintergrundwissen auflösen, während der Computer Nonsens transkribiert.
Wie Zweig und Kollegen schreiben, beruht der Erfolg des Systems vor allem auf der kontinuierlichen Weiterentwicklung und Verbesserung von Methoden, die bereits in den vergangenen Jahren und Jahrzehnten entwickelt wurden. Die Forscher nutzen verschiedene Arten klassischer künstlicher neuronaler Netze und kombinieren sie zu diversen ineinandergreifenden Modulen, die den Input akustisch filtern und auf Muster und Regelmäßigkeiten absuchen.
Automatische Transkription kann den Dialog von Mensch und Maschine verbessern helfen, aber auch die automatische Untertitelung von Videos voranbringen. Werden Audiodaten als Text aufbereitet, lassen sie sich wesentlich besser bearbeiten und beispielsweise durchsuchen. Assistenzsysteme wie Siri oder Ok Google übersetzen ebenfalls gesprochene Anweisungen zunächst in Text, um sie zu verstehen.
Schreiben Sie uns!
Beitrag schreiben