Künstliche Intelligenz: Lippenlesen auf übermenschlichem Niveau
Dank 5000 Stunden Videomaterial und einer ausgeklügelten lernfähigen Software kann der Computer nun besser von den Lippen lesen als menschliche Profis: Bei einem Test an 200 Beispielsätzen erkannte die Software knapp 47 Prozent aller Wörter korrekt, während sein menschlicher Gegner nur etwa 13 Prozent traf. Viele Fehler der KI seien zudem eher unbedeutend gewesen.
Diese technische Leistung gelang Wissenschaftlern der University of Oxford in Zusammenarbeit mit Google DeepMind. Bemerkenswert ist, dass das Lippenlesen unter nahezu den gleichen Bedingungen erfolgte, wie sie auch im echten Leben zu erwarten sind: Weder mussten Sprecher oder Sprecherin direkt in die Kamera schauen noch war ein optimal ausgeleuchtetes Gesicht erforderlich.
Das Team um Andrew Zisserman trainierte einen Verbund künstlicher neuronaler Netze darauf, Videoclips des Gesichts und insbesondere der Mundpartie zu verarbeiten, und mit dem parallelen Audiosignal und dem Untertitel in Verbindung zu bringen. An den über 100 000 unterschiedlichen Sätzen ihrer Videodatenbank verfeinerte das System mit der Zeit seine Fähigkeiten immer weiter.
Das Lippenlesen könnte einen nützlichen Informationskanal bieten, zum Beispiel wenn ein Video untertitelt werden soll. Passagen, die vom Umgebungslärm übertönt werden, oder weil ein Sprecher einem anderen ins Wort fällt, ließen sich vielleicht anhand der Lippenbewegung rekonstruieren, durch Lippenlesen müssten sich auch akustische Doppeldeutigkeiten auflösen lassen. Und womöglich taugt das Verfahren eines Tages auch zur Kommunikation mit Siri und Co: Statt in der Öffentlichkeit für alle hörbar in sein Smartphone zu sprechen, würde es reichen, stumm in dessen Kamera zu artikulieren.
Schreiben Sie uns!
1 Beitrag anzeigen