Stimmerkennung: "Captain an Computerlogbuch"

Das gesprochene Wort enthält eindeutige biometrische Merkmale. Doch genügt nicht schon ein Tonbandgerät, um die Stimmerkennung zu überlisten?

Deniz Schobert und Jörg Tacke

So wie der Kommandant des Raumschiffs Enterprise würden sich wohl viele gern an ihren Computer oder andere technische Gerätschaften wenden können. Vom Verstehen des Gesprochenen einmal abgesehen setzt ein solcher Dialog voraus, dass die sprechende Person von dem System erkannt und somit als Dialogpartner akzeptiert wird. Diesen Teil haben Wissenschaftler und Ingenieure mittlerweile für irdische Anwendungen realisiert.

So ist es bereits in einigen Unternehmen gängige Praxis, die Verwaltung ihrer Rechnernetzwerke durch eine Stimmerkennung zu unterstützen: Hat ein berechtigter Nutzer sein Passwort vergessen, ruft er eine bestimmte Nummer an. Er wird mit einem Computer verbunden, der ihn zum Nachsprechen von Begriffen oder Sätzen auffordert. Anhand der gespeicherten Templates – beim erstmaligen Anmelden an das System aufgenommenen Datensätzen – kann der Rechner die Person verifizieren und ihr ein neues Passwort mitteilen.

Risiko Replay-Attacke

Sprachorgane sind so komplex aufgebaut, dass sich ihre Anatomie von Person zu Person unterscheidet. Den als Stimme bezeichneten Klang erzeugen die vibrierenden Stimmlippen im Kehlkopf. Er besteht aus einem Spektrum von Frequenzen, das sich je nach gesprochenem Laut verändert. Dieses Signal wird durch Resonanzen, den so genannten Formanten, in Mundhöhle, Kehle und Nase charakteristisch verändert. Auch die Anordnung, Form und Maße von Zunge, Kiefer, Lippen und Gaumen beeinflussen als Filter und Artikulatoren das Frequenzspektrum.

Verhältnismäßig einfach erscheint da der Sensor zur Stimmerkennung: Ein Mikrofon wandelt das akustische in ein elektrisches Signal um, eine nachgeschaltete Einheit macht daraus Bits und Bytes für die Verarbeitung im Computer. Die auf dem Rechner laufende Software schneidet Pausen aus der gesprochenen Sequenz und teilt das verbleibende Signal in Abschnitte von dreißig Millisekunden Dauer. Dann wird die Stimmbandfrequenz durch eine Filterung von den Vokaltraktresonanzen, sprich den Formanten getrennt. Mit verschiedenen mathematischen Verfahren wie dem Hidden Markov Model und dem Neural Tree Network kann das Programm Parameter für ein Modell der Stimme errechnen.

Wie alle biometrischen Systeme arbeitet auch die Stimmerkennung dann besser, wenn das so genannte Enrolment, die Erstregistrierung, sorgfältig durchgeführt worden ist. Ungünstige Umgebungsbedingungen – in diesem Fall dominante Hintergrundgeräusche, undeutliche Aussprache, schallreflektierende Oberflächen oder minderwertige Sensoren – verschlechtern das Ergebnis, sofern das System dies nicht bemerkt und verhindert. Erfolgt der Dialog mit dem System über eine Telefonleitung oder per Handy, beeinflusst auch die Qualität der Verbindung den Vorgang, da das übertragene Frequenzspektrum von dessen Bandbreite abhängt.

Wie alle Sicherheitssysteme ist auch dieses zu täuschen, wenn kein Schutz vorgesehen ist: Ein Angreifer könnte die Stimme einer berechtigten Person mitschneiden und dem System vorspielen. Eine solche Replay-Attacke sorgt in Spionagefilmen für Hochspannung, doch der Aufwand ist sehr hoch: Der Angreifer muss zum einen in den Besitz der Aufnahmen gelangen, zum anderen direkten Zugang zum Mikrofon erhalten (wie anspruchsvoll das sein kann, illustriert der Film "Die Lautlosen" mit Robert Redford von 1992).

Wer ein solches Unterfangen aber für machbar hält, kann sein System durch den "Lebend-Test" absichern: Dem Sprecher werden willkürlich verschiedene Wörter vorgegeben, die er beim Enrolment hinterlegt hat. Diese muss er unverzüglich nachsprechen. Es ist unwahrscheinlich, dass der Angreifer das Verlangte gerade auf Band parat hat – es sei denn, er hat sich in den Besitz des Templates, also des mathematischen Modells, für eben diese Worte gebracht. Dies könnte er jedoch nur nutzen, wenn er Zugang zur Sprecherverifizierungssoftware und deren Datenbank hat. Ein System zur Stimmresynthese anhand einer Spektralanalyse, wie es die Helden der "Mission Impossible"-Thriller einsetzen, ist reine Fiktion.

Sprachformel oder freie Rede?

Die Systeme der Stimmerkennung arbeiten im einfachsten Fall mit der textabhängigen Sprecherverifikation, bei der immer gleiche Worte oder Sätze zu Grunde gelegt werden. Ein Benutzer spricht beim Enrolment diese Wörter mehrfach, der Computer ermittelt daraus die oben beschriebenen Merkmale und hinterlegt die Informationen in einer Datenbank. Um sich zu identifizieren, wird eine Person dann aufgefordert, eben diese zuvor festgelegten Ausdrücke zu sprechen.

Die zweite Variante, die textunabhängige Sprecherverifizierung, erlaubt es, das gesamte Vokabular zu nutzen. Hierzu muss der Sprecher aber das System mit viel Sprache trainieren, was entsprechend zeitintensiv ist. Die Analyse des Frequenzspektrums ist zwar nicht aufwendiger, jedoch ungenauer. Denn das gespeicherte Referenzmuster, also die mathematische Beschreibung seiner spezifischen Parameter, bezieht sich nicht auf ein Wort, sondern allgemein auf seine Sprache. Beide Varianten verwenden die gleiche Technologie: Studien in europäischen Verbundprojekten zeigten, dass die aus Fehlerraten für falsch-positive Identifikation und falsch-negative Ablehnung berechnete "gewichtete Fehlerquote" zehnmal so groß ist wie beim Abfragen immer gleicher Ausdrücke.

Deshalb tendiert die Branche derzeit dazu, eher mit festgelegten Sprachformeln zu arbeiten, dafür aber mehrere abzufragen. Das vermindert das Risiko eines erfolgreichen Angriffs und senkt die Fehlerquote auf nahezu null, wie der TÜV IT Essen im Oktober 2002 bestätigt hat: Mithilfe des Lehrstuhls für Wirtschaftsinformatik III der Friedrich-Alexander-Universität Erlangen-Nürnberg wurde ein Test durchgeführt, bei dem 130000 normale Zugriffe und 120000 Angriffe auf den Sprach-Server erfolgten. Bei den empirisch ermittelten Fehlerraten gab es eine Systemkonfiguration, bei denen die Falschakzeptanz wie auch die Falschzurückweisung gleich null war.

"Logbuch an Captain"

Mittlerweile ist die technische Entwicklung so weit gediehen, dass Stimmerkennungssysteme in Kombination mit Spracherkennung für den Privatgebrauch realistisch sind. Das Computerlogbuch kann die Äußerungen des Captain Kirk dann verstehen und antworten. Gegenwärtig geplante Anwendungen sind freilich bescheidener. Sie reichen von der reinen Komfortsteigerung – ein Autofahrer setzt sich in das Dienstfahrzeug, identifiziert sich und automatisch werden die von ihm bevorzugten Einstellungen für Sitz, Spiegel und Radiosender vorgenommen – bis hin zu sicherheitsrelevanten Anwendungen wie dem Zahlungsverkehr im Internet: Bei einer Bestellung wird die Telefonnummer angegeben, das System ruft zurück, identifiziert den zuvor registrierten Käufer und stellt eine Rechnung aus, ohne dass sensible Daten zur Bankverbindung über die Datenleitung übertragen werden.

Dem Benutzer kommt es sicher entgegen, dass er sich natürlich verhalten kann – im Unterschied etwa zur Identifizierung anhand von Fingerabdrücken. Die erforderlichen Verfahren stehen im Grunde bereits zur Verfügung, es mangelt nur noch an Standards, um die Systeme besser in ihre technische Umgebung beim Kunden zu integrieren. Die Zahl der denkbaren Anwendungen ist so groß, dass die Hersteller mittelfristig mit einem Markt von 300 Millionen Euro pro Jahr rechnen.

Aus: Spektrum der Wissenschaft 8 / 2003, Seite 69
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Download (Abo)

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Stimmerkennung: "Captain an Computerlogbuch"

Kennen Sie schon …

Spektrum - Die Woche – »Wir decken Kriegsverbrechen auf der ganzen Welt auf.«

Spektrum Kompakt – Künstliche Intelligenz in der Medizin

Schreiben Sie uns!

Themenkanäle

Artenschutz

Invasive Arten

Vögel