Direkt zum Inhalt

Automatische Personenidentifikation durch Analyse von Lippenbewegungen und Sprache

Anhand einer Kombination von Mundbewegungen und der Lautfärbung beim Sprechen eines Kennworts vermag ein Synergetischer Computer Menschen sehr zuverlässig zu erkennen.


Vom Ende der Straße kommt mir ein Paar entgegen. Da es schon dunkel wird, vermag ich auf die Entfernung zwar Mann und Frau zu unterscheiden, aber ihre Gesichter nicht mehr zu erkennen. Der schlurfende Gang und die hängenden Schultern des Mannes sind allerdings unverwechselbar: Das kann nur Uwe sein. Doch wer ist seine Begleiterin? Erst als sie mir ein lautes "Hallo Thomas" zuruft, wird mir klar, daß Uwe wohl seit neuestem mit Bianca liiert ist.

Dieses kleine Beispiel macht deutlich, daß man Personen keineswegs nur an ihrem Gesicht erkennt, sondern unterschiedlichste Merkmale kombiniert: Statur, Gesten und Stimme, eventuell auch den Geruch oder ein typisches Verhaltensmuster. Dies macht die Identifikation weniger anfällig gegen Störungen und alltägliche Variationen (wie ein Pflaster auf der Wange oder Heiserkeit bei einer Erkältung).

Technisch ließ sich diese Erkennungsleistung des Menschen noch nicht imitieren. Zwar existieren Zugangskontrollsysteme, die spezielle Merkmale wie den Augenhintergrund oder den Fingerabdruck vermessen und damit eine sichere Identifikation ermöglichen. Stehen jedoch nur statische Bilder des Gesichts oder Sprechproben zur Verfügung, erreichen die bisher angewandten Verfahren noch nicht die für einen praktischen Einsatz nötige Erkennungssicherheit. Bei der Zugangskontrolle in sicherheitsrelevanten Bereichen wie dem Eingang eines Kernkraftwerks oder dem Archiv eines Großrechenzentrums gibt sich der Betreiber verständlicher weise mit einer korrekten Identifikation von 99 Prozent der eingelassenen Besucher nicht zufrieden.

Lippenbewegungen und Stimme als Erkennungssignal


Am Fraunhofer-Institut für Integrierte Schaltungen in Erlangen haben meine Kollegen Ulrich Dieckmann, Harald Werr und ich deshalb ein System namens SESAM (für: Synergetische Erkennung durch Standbild, Akustik und Motorik) entwickelt, das Menschen anhand akustischer und optischer Signale beim Sprechen eines einzigen Wortes identifiziert. Es weist zwei wesentliche Neuerungen auf: Zum einen nimmt das System Bildfolgen auf und zieht somit auch Bewegungsinformation heran; zum anderen kombiniert es mehrere Sensorquellen (außer der Bewegungs- auch die Sprach- und optional die Standbildanalyse), was die Erkennungssicherheit deutlich erhöht.

Die Aufnahmestation enthält folglich Mikrophon und Kamera (Bild 1). Sobald die Person ein Kennwort (zum Beispiel ihren Namen) spricht, startet der Computer die Aufzeichnung und speichert etwa eine Sekunde lang sowohl das akustische Signal als auch eine Folge von 16 Kamerabildern pro Sekunde, auf denen die Lippenbewegungen zu sehen sind.

Durch Vorverarbeitungsschritte wird die wesentliche Information in den Daten geeignet aufbereitet. Unter anderem formt ein Rechner mit dem Verfahren der Short-time-Fourier-Transformation das mit 22 Kilohertz aufgenommene akustische Signal so um, daß der zeitliche Verlauf einzelner Frequenzen zum Vorschein kommt (Bild 2). Aus der Folge der Bilder, die aus je 256 x 256 Grauwert-Pixeln zu je 8 Bits bestehen, wird andererseits ein sogenannter optischer Fluß berechnet, in welchem die Bewegung einzelner Bildteile durch Vektorpfeile dargestellt ist (Bild 3). Zusätzliche Transformationen machen beide Signale unabhängig von zeitlichen und örtlichen Verschiebungen bei der Datenaufnahme.

Auswertung mittels Ordnungsparametern


Die eigentliche Datenauswertung nimmt ein sogenannter Synergetischer Computer vor. Dieser etwas irreführende Ausdruck bezeichnet keinen besonderen Rechner (im Sinne von Hardware), sondern eine Klasse von Algorithmen (Berechnungsverfahren). Sie haben in der letzten Zeit an unserem Institut bereits mehrfach robuste Lösungen industrieller Klassifikationsaufgaben geliefert.

Das Attribut "synergetisch" verweist auf einen modernen Wissenschaftszweig, der sich mit dem Entstehen von Ordnung in komplexen Systemen aus vielen gleichartigen Komponenten beschäftigt. Wir sind im täglichen Leben von vielen derartigen Systemen umgeben, ohne daß wir sie richtig wahrnähmen. Wenn zum Beispiel nach einem Konzert die Zuhörer in stürmischen Applaus ausbrechen und das ungeordnete Brausen spontan in ein rhythmisches Klatschen mündet, ist dies ein typisches Beispiel für einen selbstorganisierten Prozeß, der durch die Mathematik der Synergetik beschrieben werden kann. Vor einigen Jahrzehnten von Hermann Haken vom Institut für Theoretische Physik der Universität Stuttgart am Beispiel des Lasers entwickelt, hat dieser Wissenszweig inzwischen in vielen anderen Bereichen der Natur- und Sozialwissenschaften große Bedeutung erlangt.

Synergetische Computer wenden die Mathematik der Synergetik allerdings in der umgekehrten Richtung an: Statt das selbständige Entstehen von Ordnung in natürlichen Systemen zu modellieren schließen sie aus einem komplexen Muster auf die wenigen elementaren Einflußgrößen (Ordnungsparameter) zurück, die ihm zugrunde liegen.

Dadurch können sie beispielsweise Bilderkennungsaufgaben lösen. Dazu extrahieren sie in einer Lernphase aus vorgegebenen Bilddaten von Objekten die charakteristischen Ordnungsparameter; in der anschließenden Testphase müssen sie dann entscheiden, ob ihnen bis dahin unbekannte Muster die gleichen Ordnungsparameter enthalten, das heißt mit einem der zuvor analysierten Objekte übereinstimmen.

Experimente


Für eine Erprobung des Systems haben wir von 101 Mitarbeitern unseres Instituts je zehn Datensätze aufgenommen, fünf zum Trainieren des Algorithmus und fünf zum Testen. In einem ersten Experiment mußte jeder Teilnehmer seinen Nachnamen sprechen; unter den Versuchspersonen befanden sich zwei Geschwisterpaare und zwei weitere Paare mit gleichem Nachnamen. Im zweiten Experiment ließen wir alle Mitarbeiter dasselbe Kennwort- "sieben" – sagen. Damit wollten wir herausfinden, inwieweit SESAM auch Merkmale wie die Sprachfarbe in die Erkennung einbezieht.

Aufnahmen und Auswertungen wurden auf einem gewöhnlichen Personal Computer (486DX33) durchgeführt, der außer einer großen Festplatte und den Aufnahmekarten über keinerlei spezielle Hardware verfügte. Bei niedriger Bildauflösung dauerten Vorverarbeitung und Erkennung für die Daten sämtlicher 101 Mitarbeiter je eine gute Viertelstunde, während das Training eine halbe Stunde beanspruchte. Die Aufnahme einer einzigen Testperson kann somit in weniger als vier Sekunden zugeordnet werden.

An der Lippenbewegung beim Sprechen des Nachnamens allein erkannte das System 92,6 Prozent der Versuchspersonen; die übrigen 7,4 Prozent verwechselte es mit anderen Mitarbeitern. Als wir zusätzlich die Sprachaufzeichnung herangezogen und eine Person nur dann als erkannt werteten, wenn Bewegungsanalyse und akustische Identifikation dasselbe Ergebnis lieferten, sank zwar die Erkennungsrate auf 92,0 Prozent; aber dafür traten keine Fehlklassifikationen mehr auf: Die restlichen 8 Prozent wurden als unbekannt zurückgewiesen und mußten ihr Kennwort nochmals sprechen (worauf dann wiederum 92 Prozent von ihnen erkannt wurden). Dies mag lästig scheinen, ist im praktischen Einsatz jedoch sehr viel leichter tolerierbar als eine Fehlidentifikation.

Das zweite Experiment machte klar, daß das Verfahren selbst dann noch funktionieren würde, wenn alle 101 Personen dasselbe Kennwort hätten: Die Bewegungsanalyse ergab in diesem Fall eine Erkennungsrate von 93,9 Prozent, und bei Kombination mit der Akustik wurden immer noch knapp 85,7 Prozent der Personen richtig zugeordnet und die restlichen (fälschlich) zurückgewiesen.

Bei höherer Bildauflösung ließ sich die Erkennungsrate für die reine Bewegungsanalyse sogar bis auf 99 Prozent steigern. Dafür muß man allerdings längere Rechenzeiten in Kauf nehmen: Die Identifikation einer Person dauert dann ungefähr 30 Sekunden.

Trotz der großen Stichprobe kann man aufgrund dieser Versuche die Leistungen des Systems im praktischen Einsatz nur bedingt voraussagen. Deshalb unternehmen wir derzeit einen Feldtest an der Eingangstür unseres Instituts (Bild 1), der insbesondere neue Erkenntnisse darüber liefern soll, wie sich die Erkennungsrate über längere Zeiträume hinweg verändert und welche Möglichkeiten zum täglichen Nachtrainieren bestehen. Außerdem wird die Ergonomie der Aufnahmestation weiterentwickelt.

Hier sei nur kurz angemerkt, daß wir das Verfahren auch zur Identifikation von Wörtern verwendet haben. Der Einsatz einer kombinierten Gesten- und Spracherkennung ist insbesondere im Zusammenhang mit Steuerungssystemen, zum Beispiel im Bereich der Virtuellen Realität, von großem Interesse.


Aus: Spektrum der Wissenschaft 6 / 1995, Seite 16
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!