Direkt zum Inhalt

Pausenlos diktieren - kontinuierliche Spracherkennung in der Radiologie


Mit einem Tastendruck beendet der Radiologe das Diktieren des Befundes. Während er sich dem nächsten Patienten zuwendet, wird der Text schon geschrieben – nichts Ungewöhnliches, würde nicht ein Computer statt einer Sekretärin die Sprachaufnahme in Text umsetzen.

Sprache zu erkennen gehört zu den ersten Dingen überhaupt, die ein Mensch lernt. Was macht diese scheinbar elementare Leistung für Maschinen so schwierig? Der Hauptgrund ist die hohe Variabilität des Sprachsignals: Auch wenn wir es kaum wahrnehmen, unterscheiden sich die akustischen Realisierungen sehr stark, wenn verschiedene Leute denselben Text sprechen, und selbst dann, wenn ein Sprecher seine eigene Äußerung exakt wiederholt. Beim natürlichen fließenden Sprechen kommt hinzu, daß Wortgrenzen im Sprachsignal meist nicht unmittelbar erkennbar sind und Laute verschliffen werden.

Ein Mensch erkennt das richtige Wort, weil er ein reichhaltiges Vorwissen einsetzt: Aus der Situation, den Regeln der Grammatik und dem Inhalt des bisher Gesagten kann er häufig schon erschließen, welches Wort als nächstes kommt. Außerdem vermag er dank seiner Hörerfahrung mühelos sehr verschiedene Lautäußerungen mit demselben Wort zu identifizieren.

In zwei Forschungsprogrammen Anfang der siebziger beziehungsweise Ende der achtziger Jahre hat man versucht, dieses Vorwissen mit Methoden der Künstlichen Intelligenz zu formalisieren und dadurch für die maschinelle Spracherkennung nutzbar zu machen – mit insgesamt unbefriedigendem Erfolg. Durchgesetzt hat sich dagegen der sogenannte statistische Ansatz.

An die Stelle des semantischen und pragmatischen Vorwissens tritt dabei ein stochastisches Sprachmodell, das – unabhängig von akustischer Information – nur Auskunft darüber gibt, mit welcher Wahrscheinlichkeit ein Wort in diesem Kontext auftritt; an die Stelle der Hörerfahrung tritt ein akustisches Modell für die Wahrscheinlichkeit, daß dieses Wort, würde es ausgesprochen, so klingt wie das Gehörte. Aus der statistischen Ent-scheidungstheorie ergibt sich, daß das Spracherkennungssystem sich für diejenige Wortfolge entscheiden sollte, für die das Produkt der beiden genannten Wahrscheinlichkeiten maximal ist (vergleiche den vorstehenden Beitrag von Marcus Spies).

Beim statistischen Ansatz begnügt man sich damit, einen relativ kleinen Teil des menschlichen Vorwissens der Maschine verfügbar zu machen. Der Lohn dieser Selbstbescheidung besteht darin, daß man – im Gegensatz zu der Formalisierung von Wissen – brauchbare Schätzwerte für die genannten Wahrscheinlichkeiten nahezu automatisch gewinnen kann, indem man ein Computerprogramm große Mengen an gesprochenen und geschriebenen Texten analysieren läßt. Zugleich kombiniert eine solche quantitative Beschreibung so verschiedene Wissensquellen wie Linguistik, Akustik und Phonetik in einem einheitlichen Formalimus.

Entscheidend für die Entwicklung eines leistungsfähigen Spracherkenners ist die Vorgabe mathematischer Strukturen oder Modelle für die Schätzung dieser Wahrscheinlichkeiten. Beispiele sind die Hidden-Markov-Modelle für Folgen akustischer Zustände und die – den Gaußschen Glockenkurven ähnlichen – Verteilungen, mit denen man beschreibt, wie weit und mit welcher Wahrscheinlichkeit die konkrete Realisierung eines Phonems - einer kleineren, bedeutungsunterscheidenden Lauteinheit – von einem Mittelwert abzuweichen pflegt.

Solche Modelle enthalten noch freie, nicht von vornherein bekannte Parameter, etwa die genannten Mittelwerte. Insbesondere die letzteren sind von Mensch zu Mensch verschieden. Das System muß sie gewissermaßen lernen, indem es Sprachaufnahmen bekannter Texte verarbeitet. Nach dieser vollautomatisch ablaufenden Trainingsphase kann es nun neu gesprochenen Text erkennen.

Ein Maß für die Güte der Modellierung ist die Wortfehlerrate bei der Erkennung unter wohldefinierten Testbedingungen. Sie hängt sehr stark von der Person des Sprechers, seiner Sprechweise, dem zugrundeliegenden Vokabular, der Redundanz des gesprochenen Textes und den akustischen Bedingungen ab; typische Werte für die zur Zeit weltweit besten Systeme liegen bei 0,1 bis 1 Prozent für Ziffernketten (zum Beispiel Telefonnummern) und im Bereich von 10 Prozent für Diktate bei sehr großem Wortschatz. Es werden also im letzten Fall neun von zehn Wörtern korrekt erkannt.

Ein Spracherkennungssystem muß zunächst das Sprachsignal in eine für die Analyse geeignete Form bringen (akustische Vorverarbeitung), dann für eine große Anzahl von Hypothesen über den gesprochenen Text die oben genannten Wahrscheinlichkeiten finden (akustische beziehungsweise Sprachmodellierung) und unter diesen die wahrscheinlichste ausfindig machen (Suche). Am Philips-Forschungslaboratorium in Aachen beschäftigen wir uns mit diesen vier Problemkreisen.


Akustische Vorverarbeitung

Ähnlich wie bei einer Aufnahme für eine Compact Disk wird das analoge Sprachsignal zunächst digitalisiert. Aus den Abtastwerten wird in einem 10-Millisekunden-Zeitraster eine Folge von Merkmalsvektoren gewonnen, die (bei gleichzeitiger Datenreduktion) noch möglichst relevante Informationen über das Gesprochene enthalten sollen. Wir verwenden das logarithmierte Leistungsdichtespektrum, das Auskunft über die spektrale Verteilung innerhalb eines kurzen Zeitfensters (bei uns 25 Millisekunden) gibt; außerdem werden noch zeitliche Änderungen dieses Spektrums berücksichtigt. Weitere Verarbeitungsschritte erhöhen die Robustheit gegenüber unterschiedlichen Aufnahmebedingungen.


Akustische Modellierung

Stimme und Sprechweise des Sprechers werden durch das akustische Modell beschrieben. Es benutzt etwa eine halbe Million freier Parameter, die anhand gesprochener Daten in der Trainingsphase geschätzt (gelernt) werden. Bei großem Erkennungsvokabular werden typischerweise nicht direkt Wortmodelle gelernt, sondern Phonemmodelle. Wie sich Phoneme als lautliche Bausteine zu Wörtern zusammensetzen lassen, so werden Phonemmodelle anhand eines Aussprachelexikons zu Wortmodellen kombiniert.

Die Topologie unserer Modelle ist einfach: Sie bestehen aus Ketten von Zuständen, die in etwa einer zeitlichen Abfolge von Lauten entsprechen. Alle akustischen Phänomene werden über die Parameter akustischer Wahrscheinlichkeitsverteilungen für die Zustände beschrieben. Es handelt sich um gewichtete Summen von glockenförmigen Verteilungen.

Sprachmodellierung

Wir gehen, wie heute bei Spracherkennungssystemen üblich, von einem beliebig vorgegebenen Vokabular von Wörtern aus, die überhaupt erkannt werden sollen. Beispielsweise können das alle Wörter sein, die in einer bestimmten Textsammlung vorkommen.

Das Sprachmodell gibt zu jedem potentiell möglichen Satz eine Wahrscheinlichkeit dafür an, daß diese Folge von Wörtern vorkommen könnte. Im Idealfall enthält das Modell also Wissen über Grammatik, Bedeutung und die Äußerungssituation, wie es den linguistischen Beschreibungsebenen Syntax, Semantik und Pragmatik entspricht. Mit großen Textmengen trainierte stochastische Sprachmodelle, die auf der Häufigkeitsanalyse von Wortpaaren (Bigrammen) oder Worttripeln (Trigrammen) basieren, haben sich in vielen Experimenten als die erfolgreichsten erwiesen.


Suchverfahren

Bei der Suche nach der optimalen Wortfolge geht es darum, ein Optimierungsproblem in einem enorm großen Suchraum so geschickt zu lösen, daß es auf einem heutigen Rechner in akzeptabler Zeit abläuft. Die erste Schwierigkeit ist die astronomische Anzahl möglicher Wortfolgen: Mit 104 Wörtern etwa lassen sich 1080 Sätze von 20 Wörtern Länge bilden. Zudem ist über die unbekannten Wortgrenzen zu optimieren; und auch innerhalb von Wörtern läßt die variierende Sprechgeschwindigkeit viele Möglichkeiten zu, das sprachliche Signal mit den Phonemmodellen zu synchronisieren.

All diese Probleme werden zurückgeführt auf die Aufgabe, den optimalen Pfad in einem bewerteten Graphen zu finden (siehe Kasten Seite 96). Da künftige Beobachtungen für die Wahl der optimalen Wortfolge ausschlaggebend sein können, betrachtet das System zu jedem Zeitpunkt viele verschiedene Teilsatzhypothesen; es trifft nur dann eine endgültige Entscheidung, wenn künftige Beobachtungen sie nicht mehr beeinflussen können. Der gesamte Erkennungsvorgang läuft auf einem Personal Computer mit einem heute gängigen Prozessor des Typs 486 sowie einer Beschleunigerkarte in 0,8- bis 3-facher Echtzeit ab.


Von der Technologie zum Produkt

Die Ergebnisse unserer Arbeit sind Grundlage des von Philips Dictation Systems in Wien entwickelten Spracherkennungssystems "Speech Processing System 6000" (SP 6000), mit dem beispielsweise Radiologen ihre Befunde diktieren können (Bild). Gerade in den radiologischen Abteilungen großer Krankenhäuser fällt eine Flut von Schreibarbeiten an: häufig sind es mehr als 100000 Befunde pro Jahr. Das Erkennungsvokabular ist mit 25000 Wortformen genügend groß, um dem Arzt auch inhaltlich freies Diktieren zu ermöglichen. Man darf fließend, das heißt ohne künstlich eingefügte Pausen zwischen den Wörtern, und mit der gewohnten Sprechgeschwindigkeit diktieren. Die Beachtung einiger einfacher Regeln ist hilfreich (siehe Kasten Seite 95).

Die drei Phasen Diktieren, Spracherkennung und Korrektur laufen räumlich und zeitlich getrennt ab. Den erkannten Text muß die Schreibkraft nur noch redigieren. Sie wird dabei von einem neuartigen Korrektur-Editor unterstützt, der beim Abspielen der Aufnahme das jeweils gesprochene Wort auf dem Bildschirm hervorhebt und auf Anforderung zu einer Textstelle den zugehörigen Aufnahmeabschnitt abspielt. Zur endgültigen Formatierung wird der Text schließlich in ein übliches Textverarbeitungsprogramm übernommen.

Die hier beschriebenen Methoden sind nicht auf das Diktieren deutschsprachiger Radiologiebefunde beschränkt; auch amerikanischen Radiologen wurde schon ein Prototyp vorgestellt. Es ist lediglich eine Frage der Zeit, wann andere Anwendungsgebiete außerhalb der Medizin erschlossen werden. In der Radiologie hat die Zukunft nur etwas früher begonnen.


Aus: Spektrum der Wissenschaft 3 / 1994, Seite 94
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Kennen Sie schon …

Spektrum - Die Woche – Kerzenchemie

Heiligabend gemütlich bei Kerzenschein zusammensitzen? Ja, aber besser nicht zu viele Kerzen – und danach einmal kräftig durchlüften, wie unsere Weihnachtstitelgeschichte erläutert. Außerdem: In der Nordsee schwimmen wieder Seepferdchen. Und Astronaut Matthias Maurer erzählt über Raumanzüge.

Spektrum Kompakt – Logik

Ist doch logisch! - Ist es das wirklich? Logik durchzieht – neben der Mathematik natürlich – viele Bereiche, von der Philosophie bis zur Informatik, von der menschlichen Entscheidungsfindung bis zur Lichtschaltung im Treppenhaus.

Spektrum - Die Woche – Der Fulminante Aufstieg des Rapsöls

Rapsöl ist das beliebteste Öl der Deutschen. Nachvollziehbar – denn es ist günstig, massentauglich und gesund, wie Sie in dieser Ausgabe lesen können. Außerdem erfahren Sie mehr über einen Mathematiker aus Silizium sowie einen gefräßigen Weißen Zwerg.

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!