Direkt zum Inhalt

Prinzipien, Stand der Technik, sprecherabhängige Einzelworterkennung


Die sprachliche Kommunikation ist ein sehr vielschichtiger Prozeß. Ein Mensch versteht eine Sprachäußerung nicht nur anhand dessen, was er hört; er setzt vielmehr seine gesamte Spracherfahrung sowie sein Vorwissen über Gesprächsgegenstand und -partner ein; zudem wertet er auch nichtverbale Komponenten wie Gestik, Mimik und die emotionale Klangfärbung der Stimme mit aus. Unter Umständen ist diese Zusatzinformation sogar wichtiger als der Wortlaut. Die natürliche Sprache ist schließlich durch ein hohes Maß an Redundanz (also an eigentlich Überflüssigem) gekennzeichnet, so daß oftmals schon verbale Andeutungen oder Sprachfetzen für eine Verständigung ausreichen. Dadurch erklärt sich, daß ein Gespräch auch in lärmerfüllter Umgebung möglich ist.

Wollte man diese phänomenale Erkennungsleistung durch ein technisches System realisieren, müßte dieses letztlich über das Wissen, die Erfahrungen und die Intelligenz eines Menschen verfügen. Man kann lange darüber philosophieren, ob das ein erreichbares oder sinnvolles Ziel ist. Für den Entwickler eines Spracherkennungssystems, der immer auch den technischen Aufwand (und damit die Kosten) berücksichtigen muß, ist dies sicherlich nicht der Fall; er muß in erster Linie die konkrete Anwendung sehen. Dabei zeigt sich, daß vielfach sehr eingeschränkte Formen der Spracherkennung genügen; es kommt entscheidend darauf an, die für die spezielle Anwendung geeignetste Lösung zu finden.

Kommunikation mit Maschinen über natürliche Sprache – statt wie üblich über Tastatur und Bildschirm, allgemeiner über Schalter und Anzeigegeräte – bietet eine Reihe von Vorteilen: Der Benutzer muß keine neue Technik erlernen, sondern arbeitet mit der ihm vertrautesten Kommunikationsform; er behält Augen und Hände für andere Tätigkeiten frei, ist nicht an einen bestimmten Platz gebunden und kann die Maschine sogar per Telephon fernsteuern. Sprachein- und -ausgaben sind auch in dunklen, schmutzigen und staubigen Räumen möglich und für Behinderte, die keine Tastatur bedienen können, vielleicht die einzi- ge Kommunikationsmöglichkeit mit der Maschine. In der Gegenrichtung erreicht eine sprachliche Äußerung der Maschine auch den abgelenkten oder unaufmerksamen Benutzer.

Gegen die Verwendung dieser Kommunikationsform spricht, daß Leistungsfähigkeit und Zuverlässigkeit für manche Anwendungen noch unbefriedigend sind. Hinzu kommen die Schwächen jeder sprachlichen Kommunikation: Lärmbelästigung Unbeteiligter, unerwünschte Mithörmöglichkeiten und Beeinträchtigung durch Störgeräusche, was für die Spracherkennungssysteme gegenwärtig noch ein großes Problem ist.

Die wichtigsten Anwendungen finden sich auf folgenden Feldern:

- Eingabe von Zahlen und Wortlisten: Wer lange Zahlen- oder Wortkolonnen von einer Vorlage abzutippen hat, muß immer wieder den Blick zwischen Vorlage, Tastatur und Bildschirm wechseln, was auf die Dauer lästig, ermüdend und eine Fehlerquelle ist. Unmittelbare sprachliche Eingabe ohne Blickabwendung vermeidet dieses Problem. Zum Korrekturlesen kann man Sprachausgabe durch die Maschine einsetzen.

Bereits heute übermitteln manche Qualitätskontrolleure in der Autoproduktion ihre Mängelmeldungen direkt über eine Funkverbindung an einen spracherkennenden Computer, der nicht nur ein Protokoll führt, sondern auch eine entsprechende Meldung an die verursachende Stelle – möglicherweise einen Fertigungscomputer – weitergibt. Der Vorteil gegenüber einer späteren schriftlichen Auswertung ist prompte Reaktion; dadurch sinkt die Ausschußquote.

- Steuerung von Maschinen und Computern. Das System erkennt einen eingegebenen Befehl nicht nur, sondern führt ihn auch aus, indem es eine Handlung auslöst. So sind bereits sprachgesteuerte Werkzeugmaschinen auf dem Markt. Es gibt Automobile, in denen Fensteröffner, Scheibenwischer, Radio und Telephon gesprochenen Befehlen folgen. Bestimmte Kontroll- und Korrekturfunktionen in Personal Computern sind auch mit Hilfe von Spracherkennern auslösbar. Für motorisch Schwerbehinderte gibt es sprachgesteuerte Rollstühle. Für sicherheitsrelevante Funktionen wird die Sprachsteuerung bislang nicht eingesetzt, weil die Frage der Haftung bei Systemversagen noch ungeklärt ist.

- Auskunfts- und Bestellsysteme. Der Benutzer äußert bestimmte Anforderungen oder Wünsche, und das System gibt eine gesprochene Antwort (siehe den Beitrag von Helmut Mangold auf Seite 97).

- Diktiersysteme. Ein beliebiger, fließend gesprochener Text soll in Schrifttext umgesetzt werden. Diese Anwendung erfordert die weitestgehende Form der Spracherkennung (siehe die Beiträge von Marcus Spies auf Seite 90 und Volker Steinbiß auf Seite 94).

Man pflegt Spracherkennungsverfahren in drei Klassen einzuteilen: Erkennung von Einzelwörtern, von Schlüsselwörtern in fließendem Text oder von kontinuierlicher Sprache. In der genannten Reihenfolge steigen Schwierigkeiten und Aufwand drastisch an. Ein weiteres Kriterium ist die Sprecherabhängigkeit. Die üblichen Systeme müssen vor der eigentlichen Nutzung erst an den jeweiligen Sprecher angepaßt werden. Eine Sprecherunabhängigkeit kann man dadurch erreichen, daß man das System vorab mit möglichst vielen Sprechern trainiert. Der Aufwand dafür ist beträchtlich; gleichwohl nimmt die Erkennungssicherheit in der Regel ab.

Im folgenden sei die sprecherabhängige Einzelworterkennung genauer dargestellt. Sie ist die derzeit am meisten verwendete und technisch ausgereifteste Form der Spracherkennung.

Der Prozeß besteht im wesentlichen aus zwei Stufen (Bild 1): einer Vorverarbeitung, die aus dem Sprachsignal die für die Erkennung relevanten Parameter extrahiert, und der Klassifikation, die durch Mustervergleiche zwischen Test- und Referenzmustern die zugehörige Bedeutung findet.


Vorverarbeitung

Zur ersten Stufe gehören zunächst die frequenzmäßige Begrenzung (Filterung), die Lautstärkenormierung und eine Analog-Digital-Umsetzung; letztere ist für die (heute ausschließlich digitale) Weiterverarbeitung erforderlich. Das so digitalisierte Sprachsignal besteht zwar bereits aus einer diskreten Folge von Zahlen, die jeweils die Schallenergie zu einem gewissen Zeitpunkt beschreiben. Diese Abtastzeitpunkte liegen jedoch so dicht, daß wesentliche Eigenschaften des ursprünglich kontinuierlichen Signals erhalten bleiben; man spricht von einem quasikontinuierlichen Signal.

Die in dieser Form noch viel zu große Menge an Daten ist nun so zu reduzie-ren, daß die von überflüssigem Ballast befreite Information die relevanten Eigenschaften des Sprachsignals möglichst präzise charakterisiert. Unter den zahlreichen Möglichkeiten für diesen Schritt betrachten wir im folgenden aus Gründen der Anschaulichkeit die Parameterextraktion aus dem Sprachspektrum. Als Beispiel diene das Wort Tat, einmal kurz und einmal lang gesprochen. Im Zeitsignal (Bild 1a) ist der Plosivlaut t an seiner niedrigen Signalenergie und einem regellosen Verlauf zu erkennen; letzterer deutet auf hochfrequente Signalanteile hin. Der Vokal a ist durch hohe Signalenergie und den ziemlich regelmäßigen, periodischen Verlauf charakterisiert.

Außerdem erkennt man, daß langsames Sprechen zwar den Vokal verlängert, nicht aber die Plosive. Ein langsam gesprochenes Wort ist also nicht einfach eine Zeitlupenversion eines schnell gesprochenen, was bei der Verarbeitung zu berücksichtigen ist.

Das Schallsignal wird nun nach Frequenzen zerlegt; das entspricht mathematisch einer Fourier-Transformation, angewandt auf Zeitintervalle von etwa 20 bis 30 Millisekunden. In der Frequenzdarstellung (Bild 1b) finden sich wie vorher bei den Vokalen hohe Energien, die im Bereich tiefer Frequenzen (um 1000 Hertz) konzentriert sind; derartige Energiemaxima bezeichnet man als Formanten. Dagegen ist der Frequenzbereich bei den Plosiven sehr breit und reicht bis etwa 10 Kilohertz. Vor dem t am Wortende ist nahezu keine Energie vorhanden; solche Pausen charakterisieren die Druckaufbauphasen, die allgemein für das Sprechen von Plosiven erforderlich sind.

Bereits durch die Fourier-Transformation ist die Zeitskala auf das Raster der genannten Intervalle vergröbert worden. Meist treibt man die Datenreduktion noch weiter, indem man auch auf der quasikontinuierlichen Frequenzskala zahlreiche Werte durch Mittelung über 8 bis 20 relativ breite Frequenzbänder zusammenfaßt. Die verbleibenden Zahlen bilden, ihrerseits durch Rundung vergröbert, den sogenannten Merkmalsvektor: ein sehr grobes Abbild des ursprünglichen Spektrums, das aber für den Erkennungsvorgang völlig ausreicht (Bild 1 c).

Aus dem Sprachsignal, zum Beispiel einem gesprochenen Wort, ist damit eine zeitliche Folge von Merkmalsvektoren geworden. Die Sprechpausen vor und hinter jedem Wort, die nur unnötig Speicherplatz kosten, werden mit einem speziellen Pausendetektor ermittelt und eliminiert; abgespeichert wird dann nur das jeweilige Wort. Damit ist die Vorverarbeitung beendet.


Lernen und Erkennen

Um nun das System an einen bestimmten Sprecher anzupassen, spricht dieser ein Wort, das in der beschriebenen Weise in eine Folge von Merkmalsvektoren überführt wird, die fortan ein Referenzmuster bildet. Die Bedeutung des gesprochenen Wortes wird dem System üblicherweise über eine Tastatur mitgeteilt. Bedeutung und zugehöriges Sprachsignal werden nun im Referenzmusterspeicher abgelegt. Mehrere Referenzmuster für dasselbe Wort können durch Mittelung zu einem einzigen zusammengefaßt werden, was zufällige Abweichungen bei der Sprachaufnahme kompensiert. In gleicher Weise verfährt man mit allen Wörtern, die das System lernen soll.

Wenn nach Beendigung der Lernphase der Benutzer irgendeines der gelernten Wörter spricht, wandelt das System das Schallsignal auf dieselbe Weise in eine Folge von Merkmalsvektoren – das Testmuster – um. Dieses vergleicht es nacheinander mit allen gespeicherten Referenzmustern, ermittelt unter ihnen dasjenige, das dem vorliegenden Muster am ähnlichsten ist, und gibt dessen Bedeutung aus (Bild 1 rechts).

Für diesen Vergleich müssen die beiden Muster auf eine gemeinsame Zeitskala gebracht werden, weil kein Mensch dasselbe Wort zweimal mit exakt der gleichen Geschwindigkeit ausspricht. Eine schlichte Stauchung oder Streckung der Zeitachse wäre sinnlos, da sich – wie erwähnt – eine Veränderung der Sprechgeschwindigkeit auf verschiedene Laute unterschiedlich auswirkt. Als sehr wirkungsvolles Verfahren hat sich indessen die sogenannte dynamische Zeitanpassung erwiesen: Jeder kleine Zeitabschnitt wird individuell so gedehnt oder gestaucht, daß die Übereinstimmung zwischen Test- und Referenzmuster möglichst groß wird (Bild 2). Die sich dadurch ergebende nichtlineare Anpassungsfunktion wird im Englischen dynamic time warping function genannt; das Wort warp (sich winden) beschreibt sehr anschaulich, wie sich die Anpassungsfunktion durch das Koordinatensystem windet.

Ein letzter Verarbeitungsschritt ist die Nachadaption. Da sich die Stimme eines Sprechers im Laufe der Zeit verändert, benutzt man die Testmuster, die sicher erkannt worden sind, zum Auffrischen der abgespeicherten Referenzmuster, indem man über beide einen geeignet gewichteten Mittelwert bildet. Dadurch arbeitet das System nicht nur mit den während der Lernphase eingespeicherten Wörtern, sondern auch mit kürzlich gesprochenen.


Weitere Verfahren

Zwei andere, sehr erfolgreiche Verfahren arbeiten anstelle des hier dargestellten direkten Vergleichs von Test- und Referenzmustern mit einem eher indirekten Mustervergleich.

Als klarer Favorit gilt zur Zeit die Erkennung mit den sogenannten Hidden-Markov-Modellen. Diese gehen auf den russischen Mathematiker Andrej Andrejewitsch Markow (1856 bis 1922) zurück. Sie arbeiten mit Schätzungen dafür, mit welcher Wahrscheinlichkeit auf einen Zustand eines Systems (zum Beispiel einen Merkmalsvektor) ein anderer – oder auch derselbe – folgt (siehe insbesondere den Beitrag von Marcus Spies auf Seite 90).

Das zweite dieser Konzepte sind die neuronalen Netze. Sie bestehen aus einer parallelen, vernetzten Struktur von primitiven Schaltelementen, die echten Nervenzellen nachempfunden sind. Gewisse Parameter dieser Elemente können sich in einer Lernphase automatisch so einstellen, daß bestimmte am Eingang anliegende Merkmalsvektoren ein bestimmtes Ergebnis am Ausgang liefern (siehe "Wie neuronale Netze aus Erfahrung lernen" von Geoffrey E. Hinton, Spektrum der Wissenschaft, November 1992, Seite 134). Neuronale Netze sind sehr gut für die Spracherkennung geeignet; sie erweisen sich vor allem dann als besonders erfolgreich, wenn die Testmuster durch Störungen (etwa Umgebungsgeräusche) verfälscht sind.

Welche der genannten Strategien sich langfristig durchsetzen wird, ist noch unklar. So könnten die Hidden-Markov-Modelle ohne weiteres durch neuartige, für die Spracherkennung optimierte neuronale Netze überholt werden.

Um die Leistungsfähigkeit von Spracherkennern weiter zu verbessern, wertet man außer der akustisch-phonetischen Information, die in den Merkmalsvektoren steckt, noch weitere Informationsquellen aus. Eine sehr wichtige ist das aufgabenbezogene Wissen. Bei den meisten Anwendungen ist der Einsatzbereich inhaltlich begrenzt, so daß es nur relativ wenige zulässige Wörter gibt. Deshalb könnte zum Beispiel ein Spracherkennungsprogramm zur Maschinensteuerung einen Befehl, der fehlerhaft als "Maschine Wald" erkannt wurde, problemlos in den gültigen Befehl "Maschine halt" korrigieren.

Eng damit verknüpft ist das pragmatische Wissen: Das Spracherkennungsprogamm erhält Informationen über den Zustand seiner Umgebung und registriert eine phonetisch basierte Erkennung als falsch, wenn sie im Widerspruch zu den Umgebungsbedingungen steht. Wenn etwa das Erkennungssystem zur Maschinensteuerung (durch Meldung von Meßfühlern) weiß, daß die Maschine läuft, würde es den Befehl "Maschine anschalten" als sinnlos erkennen und durch "Maschine anhalten" ersetzen – oder eine Rückfrage auslösen.


Stand der Technik

Sprecherabhängige Einzelworterkenner für einen kleinen Wortschatz (bis zu mehreren hundert Wörtern) lassen sich heute problemlos realisieren. Die meisten der gegenwärtig verfügbaren Systeme sind von diesem Typ.

Vereinzelt werden schon sprecherunabhängige Einzelworterkenner mit bis zu 50 Wörtern angeboten; viele befinden sich aber noch im Forschungs- oder Entwicklungsstadium. Für diese Systeme besteht dringender Bedarf im Telekommunikationsbereich mit seinen immer neuen Benutzern, von denen man naheliegenderweise nicht jedesmal vor einer Benutzung eine Trainingsphase verlangen kann. Eine typische Anwendung sind telephonische Auskunftssysteme.

An der Spitze der Entwicklung liegen wenige Erkenner wie das auf Hidden-Markov-Modellen basierende System "Dictate-30K" der amerikanischen Firma Dragon Systems mit einer Kapazität bis zu 30000 Wörtern. Das genügt im allgemeinen für das Erstellen üblicher Texte, auch wenn man berücksichtigt, daß ein Wort meist verschiedene Beugungsformen hat und jede Form als eigenständiges Wort zählt. Indem sich das System ohne eine Trainingsphase an ihm unbekannte Sprecher adaptiert, hat es fast die Eigenschaften eines sprecherunabhängigen Erkenners. Die Hardware ist auf einer Karte untergebracht, die in einen Personal Computer eingesteckt werden kann. Die Hauptanwendung liegt im Bürobereich. Ein Nachteil ist sicherlich, daß der Benutzer zwischen je zwei Wörtern eine Pause machen muß (weil es sich eben um einen Einzelwort-Erkenner handelt), was eine abgehackte, unnatürliche Sprechweise erfordert.

Eine besonders interessante Aufgabenstellung ist die Erkennung von Schlüsselwörtern in fließend gesprochener Sprache, das sogenannte word spotting. Es bildet den Übergang zur kontinuierlichen Spracherkennung, erfordert aber bei weitem nicht deren Rechenaufwand. Seine Stärken entfaltet es da, wo es nur auf spezielle Informationen – etwa Kommandos, Anfragen, Namen oder Zahlen – ankommt. Beispielsweise hat der Benutzer eines mit word spotting arbeitenden Flug-Auskunftssystems beträchtliche Freiheiten, seine Antwort auf die Frage, wohin er fliegen möchte, zu formulieren; das System wird ihn schon dann richtig verstehen, wenn es nur das Wort "Hamburg" im gesprochenen Text korrekt erkennt. Auf diese Weise läßt sich hohe Benutzerakzeptanz erreichen.

Erstaunlicherweise gibt es erst wenige derartige Systeme. Ein Grund mag darin liegen, daß sich word spotting in besonderem Maße zum Abhören von Sprachkanälen (insbesondere Telephonleitungen) eignet und die Untersuchungen deshalb der Geheimhaltung unterliegen.

Die komfortabelste, aber auch bei weitem schwierigste Technik ist die zum Erkennen kontinuierlicher Sprache. Die Probleme entstehen vor allem dadurch, daß Wortgrenzen im Sprachfluß häufig nicht erkennbar sind oder gar nicht existieren: "Am Montag" wird gesprochen "amontag". Das macht den Vergleich auf Basis von Wörtern unmöglich, so daß man zu Einzellauten übergehen muß.

Es gibt weltweit erst sehr wenige Systeme, die diese Probleme bewältigen; die meisten befinden sich noch im Labor- oder Prototypen-Stadium. Außer dem "Speech Processing System 6000" der Firma Philips (vergleiche den Beitrag von Volker Steinbiß auf Seite 94) ist vor allem das System "Sphinx" zu erwähnen, das Kai-Fu Lee und seine Mitarbeiter an der Carnegie-Mellon-Universität in Pittsburgh (Pennsylvania) entwickelt haben. Es basiert im wesentlichen auf Hidden-Markov-Modellen und enthält keine wesentlich neuen Strategien oder Komponenten; seine hohe Leistungsfähigkeit kommt vielmehr dadurch zustande, daß die besten der bekannten Erkennungsalgorithmen in aufwendiger Weise miteinander vereint wurden. "Sphinx" kann kontinuierliche Sprache mit einem Vokabular von rund 1000 Wörtern und einer Treffsicherheit von ungefähr 95 Prozent erkennen. Das System befindet sich derzeit noch im Laborstadium.

Die automatische Spracherkennung gehört zweifellos zu den wichtigsten technischen Innovationen im Bereich der Mensch-Maschine-Kommunikation. Die verfügbaren Systeme sind zwar noch weit von einer Erkennungsleistung entfernt, die der des Menschen vergleichbar wäre, können aber schon jetzt für vielfältige Aufgaben eingesetzt werden. Die meisten technischen Anwendungen haben ohnehin nur sehr eingeschränkte Anforderungen an ein Spracherkennungssystem. Erheblicher Forschungs- und Handlungsbedarf besteht aber noch auf einem nicht-technischen Gebiet: der optimalen Gestaltung des Mensch-Maschine-Dialogs.

Literaturhinweise


– Sprachverarbeitung und Sprachübertragung. Von Klaus Fellbaum. Springer, Heidelberg 1984.

– Automatische Spracherkennung. Von G. Ruske. Oldenbourg, München 1988.

– Sprachliche Mensch-Maschine-Kommunikation. Herausgegeben von Helmut Mangold. Oldenbourg, München 1992.

– Speech Recognition and Understanding. Recent Advances, Trends and Applications. Herausgegeben von P. Laface und R. de Mori. Springer, Heidelberg 1992.

– Advances in Speech Signal Processing. Herausgegeben von Sadaoki Furui und M. Mohan Sondhi. Marcel Dekker, New York/Basel/Hong Kong 1992.


Aus: Spektrum der Wissenschaft 3 / 1994, Seite 86
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!