Neuere Entwicklungen der Sprachsynthese

Wer hat sich auf der Autobahn nicht schon einmal darüber geärgert, daß der Verkehrsfunk den Stau gerade dann meldet, wenn man soeben die letzte Ausfahrt passiert hat und nicht mehr ausweichen kann? Es wäre hilfreich, die Informationen nicht nur halbstündlich, sondern aktuell und jederzeit abrufbar zu haben.

Ein solcher Service ist keineswegs utopisch. Ein Sender übermittelt die Information – für den Fahrer unhörbar – neben dem sonstigen Rundfunkprogramm an einen Bordcomputer; der wählt je nachdem, wohin die Fahrt gehen soll, die relevanten Meldungen aus und gibt sie in gesprochener Form an den Fahrer weiter. Die letzte Teilaufgabe wird von einem Sprachsynthese-System übernommen.

Die angenehme Frauenstimme, die einem bei der Telefonauskunft die Nummern oder im Stadtbus die jeweils nächste Haltestelle ansagt, ist zwar auch rechnergesteuert, kann aber nur wenige festgelegte Texte wiedergeben. Maschinelle Sprachsynthese hat jedoch ein anspruchsvolleres Ziel: Es geht darum, beliebige, in dieser Zusammensetzung nicht vorgefertigte Äußerungen in gesprochener Form auszugeben.

Die Vorstellung, mit Hilfe einer Maschine menschliche Sprache zu erzeugen, beschäftigt die Wissenschaft schon seit langem. Aber die Aufgabe ist ungleich schwieriger als die mechanische Herstellung geschriebener Sprache. So blieb der gegen Ende des 18. Jahrhunderts von dem Baron Wolfgang von Kempelen vorgestellte mechanische "Sprechapparat", der Laute und sogar Lautübergänge nachbilden konnte, eine Einzelleistung, der keine Weiterentwicklung folgte.

Auf elektronischem Weg gelang es erstmals 1937 Homer Dudley in den USA mit seinem Vocoder, gesprochene Äußerungen in eine Darstellung durch zahlenmäßige Parameter zu überführen und daraus wieder als verständliche Sprache zu rekonstruieren. (Ein gleichartiger und -wertiger Entwurf des Deutschen Karl Otto Schmidt von 1932 ist nie realisiert worden.) Synthese-Systeme nach Regeln mit Lautschrifteingabe wurden erstmals in den frühen fünfziger Jahren entwickelt. Zwei Dekaden später traten die symbolverarbeitenden Programme hinzu, so daß gegen Ende der siebziger Jahre die ersten vollständigen textgesteuerten Systeme zur Verfügung standen. Seit dieser Zeit konzentriert sich die Forschung auf die Verbesserung der Systemstruktur auf allen Ebenen und auf die Optimierung der Ausgabequalität.

Aufbau eines Sprachsynthese-Systems

Am Anfang eines mehrstufigen Prozesses steht in aller Regel ein geschriebener Text; man spricht von textgesteuerter Sprachsynthese (text to speech, TTS). Sie läuft grundsätzlich in drei Schritten ab (Bild 1): Symbolverarbeitung (darunter linguistische Analyse, vergleiche den Beitrag von Bernd Möbius und Richard Sproat), Verkettung und akustische Synthese.

Symbolverarbeitung besteht aus mehreren Stufen, darunter die Umwandlung des Eingabetextes in Lautschrift – und damit die Realisierung der Ausspracheregeln – sowie ein Teil der Prosodiesteuerung: Sprachrhythmus, Dauer einzelner Laute und Betonung. Zur Prosodie gehört außerdem der Verlauf der Tonhöhe (vergleiche dazu den Beitrag von Klaus Kohler). Am Ende steht die phonetische Darstellung: eine Kette von Symbolen, die als Steuerzeichen für die nachfolgenden Stufen dienen.

Das Verkettungsprogramm verwandelt die Symbolkette in einen kontinuierlichen Strom von Zahlenwerten, die Eigenschaften des Sprachsignals (einschließlich der Prosodie) oder die Bewegung eines gedachten Sprechapparates (vergleiche den Beitrag von Bernd J. Kröger) beschreiben; daraus erzeugt schließlich der akustische Synthetisator das Sprachsignal. In manchen Synthese-Systemen liefert bereits die Verkettungsstufe Signale in einer Rohform; in diesem Falle beschränkt sich der Synthetisator darauf, diese zu manipulieren und zu modifizieren.

Die Verständlichkeit so erzeugter Sprache ist bislang noch unbefriedigend. Erfolgreicher ist in dieser Hinsicht das Verketten von Bausteinen, die aus Äußerungen eines menschlichen Sprechers stammen. Dies sind im allgemeinen keine Einzellaute, sondern größere Einheiten von einzelnen Lautübergängen bis zu ganzen Silben (vergleiche den Beitrag von Thomas Portele), da auf diese Weise die entscheidenden Übergänge von einem Laut zum nächsten besser nachgebildet werden. Die beste Verständlichkeit wird erreicht, wenn die Bausteine unmittelbar als Sprachsignale vorliegen und somit für die Synthese nur noch geringfügig manipuliert werden müssen.

Ermöglicht hat dies zum einen der Fortschritt in der Rechnertechnik: Mittlerweile stehen für die extrem umfangreichen Sprachsignal-Daten preisgünstige Speicherungsmöglichkeiten zur Verfügung. Zum anderen gibt es nun ein Verfahren, Dauer und Melodie gesprochener Sprache unabhängig von deren anderen akustischen Eigenschaften zu manipulieren. Die klanglichen Eigenschaften von Sprache und Musik ändern sich grundlegend, wenn eine Schallplatte oder ein Tonband (oder heutzutage auch eine Datei auf dem Soundblaster, der Schallerzeugungs-Hardware eines PC) zu langsam oder zu schnell abgespielt wird; dies ist als "Dinosauriersprache" beziehungsweise "Donald-Duck-Effekt" weithin bekannt. In der Sprachsynthese muß man aber Dauer und Melodie der Bausteine beeinflussen können, ohne daß solche Effekte auftreten.

Ende der achtziger Jahre haben Christian Hamon, Eric Moulines und Francis Charpentier am französischen Centre National d'Études de Télécommunication (CNET) in Lannion ein Verfahren dafür entwickelt (Bild 2). Stimmhafte Sprachsignale werden in kleine Segmente (Zeitintervalle) zerlegt, die jeweils zwei benachbarte Grundperioden umfassen. In jedem Segment wird das Signal mit einer zeitlichen Gewichtungsfunktion derart multipliziert, daß es an den Rändern gegen null strebt. Wenn man nun diese Segmente, zeitlich geeignet gegeneinander versetzt, durch Aufaddieren wieder zu einem Sprachsignal zusammenbaut, hat sich zwar möglicherweise die Sprachgrundfrequenz verändert, denn das Versetzungsintervall muß mit der ursprünglichen Grundperiode nicht übereinstimmen; gleichwohl bleibt das aufsummierte Signal dank der Multiplikation mit der Gewichtsfunktion stetig, so daß das Zerschneiden des Signals in Segmente keine Störgeräusche verursacht. Die übrigen klanglichen Eigenschaften bleiben die gleichen, weil sich die Gestalt der einzelnen Segmente nicht geändert hat. Will man die Gesamtdauer eines Lautes verkürzen oder verlängern, läßt man einzelne Segmente aus oder verwendet welche mehrmals hintereinander.

Sprachqualität

Trotz guter Verständlichkeit läßt die Qualität synthetischer Sprache in vieler Hinsicht noch zu wünschen übrig (Bild 3). Im Vergleich zu natürlicher Sprache muß der Zuhörer angestrengt hinhören und ermüdet schnell. Nicht von ungefähr reagiert ein Benutzer, der unvermittelt mit synthetischer Sprache konfrontiert wird, zumeist ablehnend, auch wenn ihn Telephonsprache oder die Sprachausgabe von Rundfunkgeräten normalerweise nicht stört; dies ändert sich erst dann, wenn er weiß, daß sein Kommunikationspartner ein technisches System ist. Dementsprechend werden diese Systeme in der Praxis noch vergleichsweise selten eingesetzt, obwohl zahlreiche Anwendungsgebiete naheliegen.

Die wichtigsten Aspekte des vielschichtigen Begriffs Sprachqualität sind Verständlichkeit und Natürlichkeit. Das sind grundsätzlich verschiedene Merkmale: Eine Äußerung, der man durch elektronische Manipulation die Sprachmelodie wegnimmt, ist fast so verständlich wie zuvor, klingt aber sehr unnatürlich; das Gegenbeispiel einer natürlichen Sprache ohne Verständlichkeit bietet ein hemmungslos nuschelnder Mensch.

Eine synthetische Stimme muß nicht wie ein Mensch klingen; es mag sogar wünschenswert sein, daß ein Zuhörer eine Maschinenstimme auf Anhieb als solche erkennt. Die Forderung ist vielmehr, daß es nicht weniger angenehm und nicht anstrengender sein soll, einer synthetischen Stimme zuzuhören als einem menschlichen Sprecher.

Woran liegt es, daß gegenwärtige Systeme im Urteil ihrer Benutzer davon noch weit entfernt sind? Ein wichtiger Teilaspekt der Natürlichkeit ist gute und korrekte Realisierung der Prosodie. Dieses Problem ist bei textgesteuerter Sprachsynthese nur teilweise zu lösen, weil die linguistische Vorverarbeitung zwar die Struktur eines Satzes bestimmen und die korrekte Aussprache der einzelnen Wörter angeben kann; gegenwärtige Systeme versuchen aber so gut wie gar nicht, die Bedeutung und den Sinn eines Satzes zu ermitteln (was auch um Größenordnungen schwieriger ist). Diese bestimmen jedoch wesentlich die Prosodie. Deshalb wird eine aus dem Text synthetisierte Äußerung immer unter einem Mangel an Natürlichkeit leiden, obwohl ausgefeilte regelgestützte Prosodiesteuerungen (vergleiche den Beitrag von Klaus Kohler) oder ein Ansatz mit neuronalen Netzen, den Christof Traber an der Eidgenössischen Technischen Hochschule Zürich entwickelt und beim CNET realisiert hat, bereits Erstaunliches leisten.

Ausgewählte Anwendungen

Die klassische Anwendung für die Sprachsynthese ist derzeit der Computerarbeitsplatz für Blinde (vergleiche Spektrum der Wissenschaft, Juni 1995, Seite 94). Zusammen mit einem Scanner und einer Software für optische Zeichenerkennung kann ein solches Gerät seinem Benutzer fast jeden beliebigen Text vorlesen, insbesondere den soeben eingetippten zur Kontrolle auf Eingabefehler.

Sprechbehinderten kann ein Sprachsynthese-System eine künstliche Stimme verleihen und ihnen dadurch die Kommunikation über Telephon oder die Teilnahme an einer Gesprächsrunde ermöglichen. In beiden Bereichen ist die Sprachsynthese praktisch konkurrenzlos.

Als weiteres großes Anwendungsgebiet zeichnen sich Auskunftssysteme ab. Außer den erwähnten Verkehrsmeldungen geht es um Reiseauskünfte aller Art oder die Ausgabe beliebiger Informationen aus Datenbanken. Selbst wenn in naher Zukunft Rechner oder zumindest Bildschirme als Ausgabemedien allgegenwärtig sein sollten, bleiben doch genügend Situationen übrig, in denen man zur Informationsübertragung auf den akustischen Kanal und damit auf eine Sprachsynthese angewiesen ist. Solche Anwendungen scheiterten allerdings bisher meist an der mangelnden Qualität der Sprachausgabe.

Abhilfe bietet die inhaltsgesteuerte Sprachsynthese (concept to speech, CTS), die sich derzeit allerdings noch im Forschungsstadium befindet. Sie sei an einem Beispiel kurz erläutert.

Ein Kunde will vom Auskunftssystem der Bahn erfahren, wie er frühmorgens von Bonn nach München kommt. Aus einer Datenbank entnimmt das System die passende Zugverbindung und bringt sie in Form einer Tabelle auf den Bildschirm des Kunden. In Zukunft würde ein entsprechendes System einen schriftlichen Text erzeugen, bespielsweise: "Nehmen Sie den Euro-City um 7.20 Uhr ab Bonn Hauptbahnhof, steigen Sie in Mannheim um in den ICE, der dort um 9.27 Uhr abfährt, und Sie sind um 12.16 Uhr in München." Diesen Text würde ein Sprachsynthese-System dann in eine hörbare Äußerung verwandeln.

Dazu müßte es ihn analysieren, seine Satzstruktur ermitteln und dazu die passende Aussprache und Prosodie erzeugen – ohne das Wissen nutzen zu können, daß es sich um eine Fahrplanauskunft handelt und deshalb beispielsweise die Uhrzeiten besonders betont und wohlartikuliert auszusprechen sind. Bei der Umwandlung in die Textform ist also Information über Sinn und Inhalt sowie über die grammatische Struktur der Äußerung verlorengegangen, die in dem System, das den Text erzeugte, noch vorhanden war. Unter diesem Mangel an Information leidet die Sprachausgabe.

Abhilfe ist dadurch zu schaffen, daß man bereits das Texterzeugungssystem auf die Ausgabe eines akustischen Signals hin auslegt und die vorhandene Zusatzinformation über die Satzstruktur oder die besonders wichtigen Teile der Äußerung nicht abwirft, sondern an das Sprachsynthese-System weiterreicht. Da der Sinn eines Satzes wesentlich dessen Prosodie bestimmt, verspricht man sich insbesondere in diesem Bereich eine wesentliche Verbesserung der Qualität.

Moderne Sprachsynthese-Systeme sind grundsätzlich imstande, so gut wie jeden Text in ein verständliches akustisches Signal umzusetzen und auszugeben. Man kann jedoch erst dann zufrieden sein, wenn eine synthetische Stimme zwar noch als maschinell zu erkennen ist, aber hinsichtlich Deutlichkeit und Hörkomfort einer natürlichen Stimme nicht mehr nachsteht. Bis dahin sind noch zahlreiche Schwierigkeiten auszuräumen.

Literaturhinweise

– A Diphone Synthesis System Based on Time-Domain Modifications of Speech. Von C. Hamon, Eric Moulines und Francis Charpentier in: Proceedings of the 1989 International Conference on Acoustics, Speech, and Signal Processing. IEEE, 1989, Seiten 238 bis 241.

– Datengesteuerte Prosodiegenerierung mittels automatischer Lernverfahren. Von C. Traber in: Fortschritte der Akustik. Tagungsbericht der 22. Deutschen Jahrestagung für Akustik. DEGA, Universität Oldenburg 1996, Seiten 86 bis 89.

– Neuere Entwicklungen der Sprachsynthese. Von Wolfgang Hess in: Sprachkommunikation. ITG-Fachbericht 139, Seiten 89 bis 100. VDE-Verlag, Berlin 1996.

– Progress in Speech Synthesis. Herausgegeben von Jan P. H. Van Santen, Richard Sproat, Joseph Olive und Julia Hirschberg. Erscheint voraussichtlich im Januar 1997 bei Springer, New York.

Aus: Spektrum der Wissenschaft 12 / 1996, Seite 100
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Download (Abo)

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Neuere Entwicklungen der Sprachsynthese

Kennen Sie schon …

Spektrum der Wissenschaft – Sprache: Sprache

Schreiben Sie uns!

Themenkanäle

Wenn die Psyche leidet

Angst

Lebenserwartung