Direkt zum Inhalt

Grundzüge der Spracherkennung in einem Diktiersystem


Das Spracherkennungssystem IBM Speech Server Series (ISSS) setzt gesprochenen Text in Echtzeit und mit extrem hoher Erkennungsgenauigkeit in geschriebenen um und stellt ihn auf dem Bildschirm dar (Bild 1). Es ist in den letzten Jahren in Produktlabors der IBM in Boca Raton (Florida) und Wien sowie in den Wissenschaftlichen Zentren in Rom, Paris, Sevilla, Hursley (Großbritannien) und Heidelberg entwickelt worden. Eine Forschergruppe um Frederic Jelinek, Robert Mercer und Lalit Bahl am Thomas-J.-Watson-Forschungslabor der IBM in Yorktown Heights (New York) hatte durch Grundlagenforschung die wesentlichen Voraussetzungen für diese Entwicklung geschaffen.

Derzeit setzt die Benutzung von ISSS das sogenannte diskrete Sprechen, das heißt Diktieren mit (wenn auch nahezu beliebig kurzen) Pausen zwischen den Wörtern voraus. Diese Einschränkung wurde um der Erkennungsgenauigkeit willen beibehalten; sie ist nicht aus Systemgründen nötig.

Die Erkennung eines Sprachsignals beginnt mit der Vorverarbeitung: Entsprechend der Schallverarbeitung im menschlichen Ohr berechnet das System zunächst über eine Fourier-Transformation, wie intensiv bestimmte feste Frequenzen zu dem jeweiligen Zeitpunkt – genauer: innerhalb eines etwas längeren vorangegangenen Zeitintervalls – im Schallsignal vorhanden sind. Jede Hundertstelsekunde wird diese Information abgegriffen und als sogenanter Merkmalsvektor an die nächste Verarbeitungsstufe weitergereicht. Es hat sich als sinnvoll erwiesen, die Werte benachbarter Zeitpunkte zusammenzufassen und die für die Unterscheidung wichtige Information mit einem statistischen Verfahren, der sogenannten Diskriminanzanalyse, zu extrahieren. Die so gewonnenen verfeinerten Merkmalsvektoren enthalten also die wesentliche Information bereits in verdichteter Form.

Wenn wir einen bestimmten Laut – etwa ein a – artikulieren, werden die währenddessen erfaßten Merkmalsvektoren einander ähnlicher sein als einem Merkmalsvektor zu einem anderen Laut. Stellt man sie sich – wie bei Vektoren üblich - als Punkte in einem hochdimensionalen Raum vor, so bilden die zu einem bestimmten Laut gehörenden Merkmalsvektoren beziehungsweise Punkte eine Wolke in diesem Raum. Deren genaue Lage und Form ist für jeden Sprecher unterschiedlich; sie wird in einer sprecherspezifischen Trainingsphase des Systems ermittelt.

Aus Gründen der Rechenökonomie beschreibt man die Wolken angenähert mit Hilfe von rechentechnisch besonders einfachen Standardformen. Man unterstellt gewissermaßen, daß die Wolken kugelförmig oder elliptisch sind und ihre Hauptachsen parallel zu den Achsen des Koordinatensystems liegen (Normalverteilungen mit diagonaler Kovarianzmatrix). Eine Wolke, die stark von der Standardform abweicht, läßt sich durch mehrere Standardwolken annähern.

Aus einer Sprachäußerung wird durch die Vorverarbeitung eine zeitliche Abfolge von Merkmalsvektoren; in dem abstrakten Raum hüpft gleichsam ein Punkt von Wolke zu Wolke. Im Prinzip müßte ein Spracherkennungsprogramm also nur anhand der Merkmalsvektoren die jeweils richtige Wolke identifizieren. Die derart gefundene Abfolge der Wolken ergäbe dann direkt eine Lautschrift des Sprechsignals.

In der Praxis ist die Situation allerdings weitaus komplizierter. Man findet typischerweise nach einem Training erheblich mehr Wolken im Raum der Merkmalsvektoren, als es Laute gibt. Es existiert also keine eindeutige Zuordnung von Lauten (Phonemen) zu Wolken in unserem Merkmalsraum. Vielmehr benutzt jedes Phonem Punkte aus mehreren Wolken; dabei liegt nur grob deren Reihenfolge fest, nicht aber der genaue zeitliche Verlauf. So machen die meisten Sprecher bei einem einzeln ausgesprochenen w am Ende einen Abstecher zur Wolke für das e; im Verlauf des w wird möglicherweise zwischendurch kurz die u-Wolke benutzt, und so weiter. Schließlich sind die Wolken unscharf begrenzt und überlappen sich gegenseitig.


Markow-Ketten

Gleichwohl ist das Problem nicht unlösbar, wie unsere eigene Fähigkeit zum Sprachverstehen zeigt. Um das menschliche Vorwissen mathematisch zu formalisieren und damit dem Computer verfügbar zu machen, ordnet man einer sprachlichen Äußerung (beispielsweise einem Wort) einen sogenannten Markow-Prozeß zu. Das ist zunächst die Angabe der Wahrscheinlichkeiten, mit denen auf einen Zustand (Merkmalsvektor) aus einer gewissen Menge von erlaubten Zuständen ein anderer folgt. Man stellt das üblicherweise durch eine sogenannte Markow-Kette dar (Bild 2). Eine Realisierung eines Markow-Prozesses besteht darin, daß ausgehend von einem Anfangszustand ein Folgezustand durch Zufall nach Maßgabe der für den Anfangszustand gültigen Übergangswahrscheinlichkeiten bestimmt wird, aus diesem wieder ein Folgezustand und so weiter.

Markow-Ketten sind ein Standardmittel der Statistik zur Modellierung zeitlicher Abläufe. Das Neuartige in der Anwendung auf die Spracherkennung ist, daß die Zustände nicht Merkmalsvektoren, sondern Wolken – genauer: Wahrscheinlichkeitsverteilungen von Merkmalsvektoren – sind. Da ein Merkmalsvektor mehreren Wolken angehören kann, ist aus einer beobachteten Folge von Merkmalsvektoren nicht ohne weiteres auf die zugehörige Folge der Zustände (Wolken) zu schließen (vergleiche Kasten Seite 92); diese bleibt - zunächst – verborgen, weshalb sich die Bezeichnung hidden Markov models eingebürgert hat. Was wie eine unnötige Komplizierung anmutet, ist deswegen so erfolgreich, weil die Hidden-Markov-Modelle mit ihrer eingebauten Unschärfe die natürliche Ungenauigkeit der Artikulation sehr gut wiedergeben können.

Für die Lernphase muß ein Sprecher einen Text von etwa einer Dreiviertelstunde Dauer verlesen. Aus den zahlreichen Realisierungen jedes gesprochenen Lautes berechnet das System sodann Schätzwerte für die Verweil- und Übergangswahrscheinlichkeiten eines zugehörigen Markow-Prozesses. Zugleich werden die Parameter der Wolken geschätzt. In diesen Zahlen ist also gewissermaßen das Wissen gespeichert, wie dieser Sprecher einen Laut auszusprechen pflegt.

Für die große Mehrheit der Wörter, die im Trainingstext nicht vorgekommen sind, gleichwohl aber erkannt werden sollen, ist der zugehörige Markow-Prozeß aus den verfügbaren Daten zu konstruieren. Mit Hilfe eines wissensbasierten Systems, das Klaus Wothke und weitere Computer-Linguisten bei der IBM in Heidelberg geschrieben haben, gewinnt man aus der geschriebenen Form eines Wortes die Abfolge der Phoneme, aus denen sich die gesprochene Form zusammensetzt; zu jedem Phonem gehört eine Markow-Kette, aus deren Verkettung man die Markow-Kette für das ganze Wort erhält.

Soll nun das System im Betrieb den richtigen Laut im Kontext einer Äußerung erkennen, muß es entscheiden, welche unter einer großen Zahl denkbarer Markow-Ketten mit der größten Wahrscheinlichkeit die vorliegende Beobachtung (Merkmalsvektor-Folge) erzeugt hat. Hier wird ein Verfahren verwendet, das der amerikanische Nachrichtentechniker Andrew J. Viterbi 1967 in einem ganz anderen Zusammenhang vorgeschlagen hat (siehe Kasten Seite 92). Erst mit diesen Prinzipien und ihrer Umsetzung in sehr effiziente Algorithmen wurde es möglich, im Computer Phoneme der menschlichen Sprache treffsicher unterscheidbar zu machen.

Indem das System mit Markow-Ketten nicht nur für einzelne Phoneme, sondern auch für Phonemfolgen – insbesondere Wörter - arbeitet, stellt es sich gewissermaßen nicht einfach die Frage, welches unter mehreren in Frage kommenden Phonemen soeben am wahrscheinlichsten gesprochen wurde, sondern welches unter Berücksichtigung des bereits gehörten Wortfragments das wahrscheinlichste ist.

In diesem Sinne gleicht seine Arbeitsweise der Wahrnehmung des Menschen: Wir registrieren nicht unvoreingenommen, sondern versuchen das Wahrgenommene in bereits teilweise vorgefaßte Hypothesen einzupassen. Durch diese Rekonstruktionsleistung (für die das Schlagwort "Analyse durch Synthese" geprägt worden ist) sind wir imstande, Unvollständigkeiten und Schwankungen in der Gestalt der Objekte zu korrigieren.

Dieses Vorgehen läßt sich in der maschinellen Spracherkennung weiter verallgemeinern, indem man phonetische Wortmodelle ihrerseits zu größeren Datenstrukturen zusammenfaßt, aus denen durch Viterbi-Aufreihung die wahrscheinlichste aus einer großen Anzahl von Worthypothesen zu ermitteln ist.


Verfeinerte Sprachmodelle

Die regelhafte Beziehung zwischen Aussprache und Schreibweise – Voraussetzung für das Erstellen eines phonetischen Wortmodells – ist im Deutschen und im Englischen weitaus komplizierter als etwa im Spanischen. Deshalb hat man die bisher beschriebene Modelldarstellung verfeinert, was zu einer erheblichen Verbesserung der Erkennungsgenauigkeit beiträgt. Das Programm ISSS geht dabei in zwei Schritten vor.

Das bisher beschriebene Prinzip war, Wörter in Phoneme zu zerlegen und dann für jedes Phonem eine Markow-Kette zu formulieren. Ist es nicht sinnvoll, das Phonem als Beschreibungsebene der Spracherkennung überhaupt auszulassen? Würde es demnach nicht genügen, für die phonetische Darstellung eines Wortes einfach eine Markow-Kette durch die Wolken des Merkmalsraums nachzuzeichnen? Dies hätte den Vorteil, daß man die Feinheiten der Aussprache wie etwa Verschleifungen und Verkürzungen ganz genau erfassen könnte.

Während eine Markow-Kette für ein Phonem typischerweise 7 Zustände (Wolken) und 13 Übergänge hat, könnte man recht lange, gleichwohl sehr einfach strukturierte Markow-Ketten formulieren, die sich nur auf Merkmalsvektoren und ihre Abfolge beziehen: Für jeden Knoten gibt es den Übergang zum Knoten selbst, zum nächsten Knoten und zum übernächsten für den Fall, daß der dem nächsten Knoten entsprechende Merkmalsvektor in der Kette der Daten fehlt. Das so erhaltene Wortmodell orientiert sich nur an den unmittelbar beobachteten akustischen Phänomenen und hat deshalb den Namen fenonic base form erhalten, zu übersetzen etwa als "phänonische Grundform".

In dieser Form ist das Wortmodell allerdings noch unpraktikabel. Weil jedes Wort unmittelbar durch Merkmalsvektoren modelliert wird, entfällt die Möglichkeit, aus der Schriftform des Wortes Hypothesen über seine akustische Realisierung zu gewinnen. Also müßte auch für jedes Wort ein eigenes phänonisches Modell trainiert werden. Dies ist unökonomisch und nicht für die Praxis geeignet.

An dieser Stelle setzt nun der zweite entscheidende Schritt an, der den Spracherkenner ISSS auszeichnet. Offenbar ist ja ein phänonisches Modell sinnvoll, wenn es sich auf möglichst kleine lautliche Einheiten bezieht. Man müßte also einen Weg finden, aus der Schriftform eines Wortes möglichst genau auf diese kleinsten lautlichen Einheiten zu schließen. Der Ansatz dazu sind die phonetischen Entscheidungsbäume.

Die Idee besteht darin, an die Stelle der traditionellen, eher groben Ausspracheregeln solche zu setzen, die empirisch aus umfangreichem Datenmaterial gewonnen werden. Die Aussprache eines geschriebenen Buchstabens – genauer: einer Buchstabenfolge, die ein Phonem vertritt, wie etwa sch – ist vom Kontext abhängig; s wird in Amsel stimmhaft, in Emsland stimmlos ausgesprochen. Auch kontextabhängige Verschleifungen können hier erfaßt werden.

Das Programm strukturiert nun die Menge der akustischen Realisierungen des Phonems s (oder irgendeines Phonems), indem es die Gesamtmenge abhängig vom Kontext in zwei jeweils möglichst homogene (in sich einheitliche) Teilmengen aufteilt. (Um zu bestimmen, ob zwei Folgen von Merkmalsvektoren sich ähnlich sind, kann man für sehr kurze Abschnitte des Sprachsignals – wie die Erfahrung gezeigt hat – sogar deren Reihenfolge ignorieren; es genügt der wesentlich weniger aufwendige Vergleich ihrer Häufigkeiten.) Die Kriterien dieser Aufteilung muß niemand vorgeben; sie werden automatisch vom Programm errechnet. Dabei werden Kontexte von bis zu fünf Phonemen vor und hinter dem jeweils zu beschreibenden berücksichtigt.

Jede Teilmenge wird wiederum in zwei möglichst homogene Teilmengen aufgeteilt, und so weiter. Dabei gilt das statistische Kriterium des maximalen Informationsgewinns. Mit der Aufteilung fährt man fort, bis sich kein nennenswerter Informationsgewinn mehr ergibt.

Insgesamt erhält man so eine hierarchische (baumartige) Struktur, an deren Enden (den sogenannten Blättern) jeweils eine Menge von Kontexten mit nahezu derselben Aussprache für das Phonem versammelt ist. Eine solche statistisch hergeleitete Phonemaussprache heißt im englischen Jargon leafeme, was etwa mit Blattlaut zu übersetzen wäre. Das stimmhafte s beispielsweise könnte ein Blattlaut sein, oder auch der Laut, der kurzfristig bei der Verschleifung von a und u auftritt.

Am Ende dieser Prozedur kann man jedes Wort als eine Folge von Blattlauten modellieren. Und nun wird es sinnvoll, die Blattlaute durch ein phänonisches, also nur die Merkmalsvektoren berücksichtigendes, Modell zu beschreiben. Damit hat man die Ökomonie des phonetischen Wortmodells gewahrt, ist aber in der Feinanpassung an Aussprachedetails und Kontextvarianten von Phonemen beträchtlich weitergekommen. Das Ergebnis ist eine äußerst zufriedenstellende Qualität des Spracherkenners in Echtzeit.


Sprachmodelle

Mit Hilfe der bisher beschriebenen Verfahren gewinnt der Spracherkenner genaugenommen eine Zahl, die angibt, wie wahrscheinlich das vorliegende Sprachsignal ist, wenn ein bestimmtes Wort beziehungsweise eine Wortfolge vorausgesetzt ist. Nennen wir dies die Synthesewahrscheinlichkeit. Eigentlich wollen wir aber umgekehrt wissen, welche Wortfolge die wahrscheinlichste ist, wenn man das Sprachsignal als gegeben ansieht.

Für diesen Umkehrschluß von einer bedingten Wahrscheinlichkeit auf die andere ist das Bayessche Theorem aus der Statistik anzuwenden, das auf den englischen Mathematiker Thomas Bayes (1702 bis 1761) zurückgeht (vergleiche Kapitel 1 und 5 aus meinem Buch "Unsicheres Wissen", Heidelberg 1993). Es besagt, daß bei gegebenem Sprachsignal die Wahrscheinlichkeit für eine Wortfolge proportional zum Produkt aus Synthese- und Grundwahrscheinlichkeit der Wortfolge ist. Wenn etwa die Synthesewahrscheinlichkeit für das Wort "Kant" größer als die für "Hand" ist, das Spracherkennungssystem aber im medizinischen Bereich eingesetzt ist, wo erheblich öfter von Händen als von Philosophen die Rede ist, dann sollte es gleichwohl auf "Hand" schließen.

Wie aber findet man – außerhalb aller akustischen Überlegungen – die Grundwahrscheinlichkeit eines Wortes oder einer Wortfolge? Alle heute gängigen Systeme verwenden nicht etwa wissensbasierte, am Textverstehen orientierte Ansätze, sondern statistische Sprachmodelle. Diese erfassen Wortzusammenhänge anhand beobachteter Wortfolgen.

In unserem Spracherkenner verwenden wir Häufigkeitsbeobachtungen auf Dreiwortfolgen (Trigrammen) in großen Textsammlungen, wie sie auch von Kunden geliefert werden. Daß es hierbei mit dem Auszählen allein nicht getan ist, zeigt sich, wenn man überlegt, daß bereits bei 20000 Wörtern mehr als eine Billion Trigramme denkbar sind. Selbst umfangreiche Textkorpora erreichen selten diese Größe. Man muß also Häufigkeiten nicht beobachteter Trigramme schätzen und auch die beobachteten Häufigkeiten durch Schätzungen korrigieren. Dafür verwenden wir Verfahren, die ursprünglich aus der Biostatistik stammen.

Im Bereich der Sprachmodelle sind bei uns einige Forschungsarbeiten im Gange. So versuchen wir, die Häufigkeitsmodelle für Trigramme durch Einbeziehung der Wortart zu verfeinern. Dadurch wird zum Beispiel das Wissen, daß die Folge Artikel – Substantiv wesentlich häufiger ist als die umgekehrte, für das System verfügbar.

Im Deutschen kommen zahlreiche Wortkomposita (etwa "Gelenkarthrose") in Texten vor, die das Vokabular unnötig belasten, weil ihre Bestandteile ("Gelenk" und "Arthrose") meistens als eigenständige Wörter bereits im Vokabular verzeichnet sind. Dafür entwickeln wir zur Zeit einen neuen Ansatz zur Schätzung von Häufigkeiten der Kompositabestandteile.

Andererseits scheint es sinnvoll, die Berücksichtigung eines Kontextes von fester Länge, wie bei den Trigrammen, durch die Beobachtung auch weiter entfernter Wörter zu ergänzen. Gerade im Deutschen kommen weitgespannte Abhängigkeiten sehr oft vor ("Er kam erst am späten Abend an"). Hier scheint es vielversprechend, mit regelähnlichen statistischen Strukturen relevante Kontexte herauszufinden und auf ihnen Sprachmodelle zu formulieren.

Es gibt also noch zahlreiche und praxisrelevante Forschungsaufgaben. Dennoch lohnt es sich schon jetzt, den Einsatz der Spracherkennung am Arbeitsplatz zu erwägen.


Aus: Spektrum der Wissenschaft 3 / 1994, Seite 90
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!