Modellgesteuerte Prosodie-Erzeugung

"Der Ton macht die Musik": Ein und dieselbe Wortfolge kann mit sehr unterschiedlicher Betonung und Sprechmelodie gesprochen werden und bedeutet dann sehr Verschiedenes. Diesen Informationsgehalt kann ein schriftlicher Text mit den wenigen Satzzeichen und Hilfsmitteln wie Kursiv- oder Fettdruck nur unvollkommen wiedergeben. Hingegen vermag ein Zuhörer die Bedeutungsnuance, die der Sprecher über diese sogenannte Prosodie vermittelt, in der Regel eindeutig und spontan zu erkennen; es fällt aber oft schwer, sie in Worten wiederzugeben. Machen wir uns das an der Wortfolge ja zur Not paßt auch der Freitag klar. Die Dialogbeispiele stammen aus einem Szenario, das den Rahmen für das vom Bundesforschungsministerium geförderte Projekt Verbmobil zum automatischen Dolmetschen abgegeben hat (Spektrum der Wissenschaft, März 1994, Seite 99). Die Gesprächspartner A und B versuchen, sich auf einen gemeinsamen Termin zu einigen. Dialog I A: Ist der Termin bei Ihnen auch gegen Ende der Woche möglich, zum Beispiel am Freitag? B: Ja (,) zur Not paßt auch der Freitag. Termine fern vom Wochenende wären B lieber, aber er willigt notgedrungen in den von A vorgeschlagenen Termin ein. Das Wort auch setzt Freitag in Gegensatz zu den B vorschwebenden früheren Wochentagen. Dialog II A: Ist der Termin bei Ihnen auch gegen Ende der Woche möglich, zum Beispiel am Donnerstag? B: Ja (,) zur Not paßt auch der Freitag. B kann den von A vorgeschlagenen Termin akzeptieren und ist notfalls auch mit dem nachfolgenden Tag einverstanden. Das Wort auch setzt Freitag in Gegensatz zu dem von A genannten Wochentag. Dialog III A: Ist der Termin bei Ihnen auch gegen Ende der Woche möglich, zum Beispiel am Samstag? B: Ja (,) zur Not. Paßt auch der Freitag? B könnte den von A vorgeschlagenen Termin notgedrungen akzeptieren; er fragt aber nach der ihm lieberen Alternative am Tag vor dem eigentlichen Wochenende. Das Wort auch setzt Freitag in Gegensatz zu dem von A genannten Wochentag. Auch wer den Kontext nicht kennt und nur den jeweils von B gesprochenen Satz hört, kann im allgemeinen allein aus der Prosodie die verschiedenen Bedeutungen mühelos erschließen. Woraus genau zieht der Zuhörer diese Schlüsse?

Die Botschaft zwischen den Zeilen

Ein Sprecher kann einzelnen Worten eines Satzes besonderes Gewicht verleihen, indem er sie stärker betont als ihre Nachbarn (das ist ein Satzakzent im Gegensatz zum Wortakzent, der angibt, welche Silbe eines Wortes betont wird) und indem er zum Beispiel die Tonhöhe anhebt. Dem entspricht physikalisch ei-ne Erhöhung der Grundfrequenz. Dabei kommt es auch auf die Art dieser Erhöhung an.

In den Dialogen I und II hebt B die Wörter Not und Freitag hervor, aber auf unterschiedliche Weise (Bild): In Dialog I findet sich ein sogenanntes Hutmuster mit einem späten Grundfrequenzanstieg auf Not und einem frühen Abstieg auf Freitag. In Dialog II liegen zwei getrennte Gipfel im Zentrum der betonten Vokale o beziehungsweise ei, von denen der zweite höher ist. Der Maximalwert der Grundfrequenz im Wort Freitag liegt in Dialog I am Anfang der Silbe Frei, in Dialog II in der Mitte.

Dadurch vermittelt B im ersten Fall, daß er etwas Bestehendes (nämlich den Terminvorschlag von A) akzeptiert, im zweiten Fall, daß er etwas Neues setzt (nämlich einen eigenen Terminvorschlag). Im ersten Fall schwingt außerdem die Nebenbedeutung mit, daß B sich mit dem zwar Unerwünschten, aber nicht Änderbaren abfindet, noch verstärkt durch den späten Grundfrequenzanstieg auf Not ("wenn es unbedingt sein muß").

Dagegen findet sich in Dialog II die umgekehrte Tendenz: Indem B den Satzakzent auf Not zurücknimmt und den Gipfel auf Freitag besonders ausprägt, schwächt er die resignative Konnotation ab und legt das Hauptgewicht auf seinen neuen Vorschlag. Die Reduktion kann so weit gehen, daß der Satzakzent und der damit gekoppelte Tonhöhengipfel auf Not völlig verschwinden. In einer weitere Variante von Dialog II liegt außerdem ein Satzakzent auf auch, wodurch B das Zusätzliche seines Vorschlags stärker gewichtet.

Schließlich kann in den Dialogen I und II das einleitende ja eine echte Bejahung (im Gegensatz zu nein) oder eine bloße Eröffnungspartikel (nach dem Muster ja gibt's denn sowas?) sein. Im ersten Fall besteht die Wortfolge aus zwei Äußerungen, im letzten nur aus einer. Beim Sprechen markiert man die Grenze zwischen diesen beiden Phrasierungseinheiten dadurch, daß man das Wort ja dehnt, ihm einen Satzakzent gibt und an dieser Stelle die Tonlage tief abfallen läßt (Bild). Eine Pause würde diesen prosodischen Einschnitt noch weiter verstärken.

Ein eigenständiges, akzentuiertes ja kann man statt mit fallendem auch mit steigendem Ton sprechen; damit zeigt man an, daß die Äußerung weder kategorisch noch abgeschlossen ist, sondern auf den Dialogpartner eingeht und im Dialog weiterverweist.

Die Antwort von B in Dialog III hat, wie man bereits aus der Interpunktion erschließen kann, einen Einschnitt nach zur Not und am Ende einen steilen Anstieg der Tonhöhe zur Signalisierung der Frage. Für das ja in Dialog III gilt dasselbe wie in I und II, und Not kann eine Gipfel- oder auch eine Talkontur haben. Im Bild ist die Version mit drei Phrasen, Gipfelkonturen und Pause nach der zweiten Phrase dargestellt.

Da der Satz Paßt auch der Freitag? bereits durch die Wortstellung als Frage erkennbar ist, kann man die Melodie zum Ende auch fallen statt steigen lassen. Damit drückt man aus, daß die Frage nicht primär eine Bitte um eine Auskunft ist, sondern eine Aufforderung, in diesem Falle dem Terminvorschlag zuzustimmen.

Zusammengezählt ergeben sich in dem vorgestellten Beispiel 30 deutlich verschiedene Varianten für die prosodische Realisierung ein und derselben Wortfolge, nicht eingerechnet die Möglichkeit, in den Äußerungseinschnitten auch noch Pausen einzufügen. Hinzu kommt, daß Grundfrequenzwerte, Pausen- und Lautdauer in einem weiten Bereich zufällig variieren – von Sprecher zu Sprecher und selbst dann, wenn ein Mensch denselben Satz mehrmals ausspricht.

Maschinelle Realisierung

Um eine natürlich klingende Sprachmelodie mit dem Computer nachzubilden, muß man über detaillierte Kenntnis der Prosodie einer Sprache verfügen. Zudem gilt es, die systematische, in Regeln beschreibbare Variation von der zufälligen zu trennen.

Ein Sprachsynthese-System kann nur das systematisch Veränderliche umsetzen; aber selbst unter dieser Einschränkung ist die Anzahl der denkbaren Prosodiemöglichkeiten immens. Das System wird nur dann erfolgreich sein, wenn es diese Vielfalt aus einer sehr begrenzten Zahl von Regeln, die syntaktische, semantische und phonetische Information einbeziehen, herleiten kann.

Im Gegensatz zu dieser wissensgesteuerten Regelsynthese hätte eine datengesteuerte Mustersynthese sehr viel größere Probleme. Man müßte nämlich einen sehr großen Vorrat (Korpus) an Grundfrequenzdaten bereitstellen und hätte ausschließlich statistische Mittel zur Verfügung, um daraus im konkreten Einzelfall das passende Prosodiemuster auszuwählen. Die Situation ist erheblich ungünstiger als bei der datengesteuerten Lautfolge-Synthese (vergleiche den Beitrag von Thomas Portele), bei der das Baustein-Inventar vergleichsweise begrenzt ist und man für die Verkettung der Bausteine wieder auf Regeln zurückgreifen kann.

Wenn die Regelsynthese von einem in üblicher Form schriftlich vorliegenden Text ausgeht (text to speech, TTS), muß ein Vorverarbeitungsschritt Information, die nicht explizit – etwa in Form von Satzzeichen – im Text enthalten ist, auf anderem Wege erschließen, zum Beispiel aus der grammatischen Struktur oder dem Bedeutungskontext. In vielen Fällen ist eine Mehrdeutigkeit dennoch nicht auflösbar.

Am Institut für Phonetik und digitale Sprachverarbeitung (IPDS) der Universität Kiel haben wir in etwa zehnjähriger Forschungsarbeit ein Prosodiemodell (die theoretische Grundlage für Prosodiesynthese) für das Standarddeutsche entwickelt: das Kieler Intonationsmodell (KIM). Es basiert auf der Analyse einer begrenzten Datenbasis.

Die Struktur des Modells haben wir in ebenfalls mehrjähriger Forschungsarbeit in das multilinguale TTS-Synthesesystem INFOVOX von Telia Promotor, einer Tochtergesellschaft der schwedischen Telekom, eingebaut. Dabei verwendeten wir das Software-Paket RULSYS des Instituts für Sprache, Musik und Gehör der Technischen Hochschule in Stockholm, mit dem auch das nebenstehende Bild erstellt wurde. Im folgenden wird diese TTS-Implementation von KIM beschrieben.

Unser System verarbeitet den Text in zwei Stufen, die wir die symbolische und die parametrische nennen. In der ersten Stufe macht es aus der vorgelegten Symbolkette – dem geschriebenen Text – durch Anwendung bestimmter Regeln eine andere (vergleiche dazu den Beitrag von Bernd Möbius und Richard Sproat), daraus mittels eines weiteren Satzes von Regeln wieder eine andere und so fort. Gewisse Sonderzeichen – prosodische Markierungen – werden dort in den Text eingefügt, wo Satzakzente, Phrasengrenzen und ähnliches zu setzen sind. Die letzte Kette ist Eingabe für die parametrische Stufe.

Symbolische Verarbeitung

Zunächst wendet das System Regeln an, die auf einzelne Worte wirken. Ein Satz von Regeln wirkt als Graphem-Phonem-Konverter, setzt also die Zeichen der Texteingabe in Symbole der Lautschrift um; ein anderer bestimmt den Wortakzent.

Alle folgenden symbolischen Regeln wirken auf ganze Sätze. Dazu gehört eine begrenzte grammatische Satzanalyse, die nicht zu KIM im engeren Sinne gehört, aber etliche für eine korrekte Prosodie erforderlichen Merkmale aus dem Text herleitet: Phrasengrenzen, Wörter, auf denen der Satzakzent liegt, bei Fragesätzen den Typ der Frage sowie weitere Eigenschaften.

Diese Vorverarbeitung verläuft nach sehr formalen Kriterien: Zunächst wird der Text in Sätze – abgegrenzt durch die Punktzeichen Punkt, Frage- und Ausrufezeichen – und Worte – abgegrenzt durch Leerzeichen – zerlegt. Das Verfahren bestimmt dann Wortarten (insbesondere identifiziert es Funktionswörter wie Hilfsverben, Präpositionen und Artikel) sowie formale grammatische Strukturen eines Satzes, jedoch nicht seine Bedeutung.

Gemessen an der vom KIM erfaßten empirischen Vielfalt ist diese Analyse bei weitem nicht vollständig. Den überwiegenden Teil der prosodischen Marken muß ein Mensch nachträglich in den voranalysierten Satz einfügen. Immerhin liefert das System unter Verwendung gewisser Standardannahmen eine vereinfachte Prosodie, die häufig – aber eben nicht immer – zur intendierten Bedeutung des Satzes paßt.

Im Rahmen unserer Arbeit am KIM haben wir ein prosodisches Notationssystem namens PROLAB entwickelt (Kasten auf dieser Seite). Es ist Teil eines umfassenden rechnerkodierten Transkriptionsalphabets, mit dem wir große akustische Datenbasen von deutscher Spontan- und Lesesprache ("The Kiel Corpus") halbautomatisch phonetisch verarbeitet haben. Das IPDS bringt die Ergebnisse dieser Arbeit in unregelmäßiger Folge auf CD-ROM heraus.

Eine derart mit prosodischen Marken angereicherte Datei kann man direkt in das TTS-System einspeisen. Damit ist schon jetzt eine sehr überzeugende symbolgesteuerte TTS-Synthese von Spontansprache möglich; vor allem ergibt sich so ein ausgezeichnetes Forschungsinstrument zum Testen des Modells und seiner Implementation.

Auf dieser Stufe liegt also ein phonetisch geschriebener Text vor, bei dem zusätzlich einzelne Wörter sowie ganze Sätze mit gewissen Attributen versehen sind. Diese – hervorgegangen aus den prosodischen Markierungen – beziehen sich auf den Wortakzent, den Satzakzent, die Intonation, Phrasengrenzen, die globale Sprechgeschwindigkeit und deren Änderung, die Tonlage und deren Änderung sowie Verzögerungsphänomene.

Die Unterscheidung zwischen Wort- und Satzakzent ist für das Deutsche äußerst wichtig. So haben die Wörter Ende und Woche in den Äußerungen des Dialogpartners A einen Wortakzent auf der ersten Silbe, aber nur das Wort Ende hat einen Satzakzent. Die Position des Wortakzents bestimmt, wo und in welcher Weise ein Satzakzent auf einem Wort realisiert wird.

Das Merkmal Intonation umfaßt unter anderem die erwähnten Gipfel- oder Talkonturen der Sprechmelodie, den Zeitpunkt innerhalb des satzbetonten Vokals (Anfang, Mitte oder Ende), auf dem ein Gipfel beziehungsweise eine Talsohle liegt, sowie die Verknüpfung von Gipfeln und Tälern. Die Dialoge haben für letzteres drei Beispiele gezeigt: den tiefen Abstieg an den prosodischen Grenzen, den mittleren Abstieg im Phraseninnern und als dessen Grenzfall das Hutmuster.

Parametrische Verarbeitung

In der zweiten Stufe des Gesamtprozesses setzt das System nun diese Merkmale – abermals nach Regeln und in Abhängigkeit vom Kontext – in Zahlenwerte um. Insbesondere gehören zu jedem Lautsymbol der Umschrift Parameter, die seine Aussprache beschreiben. Weitere Zahlenangaben bestimmen die Laut- und Pausendauern und ordnen den Intonationssymbolen Grundfrequenzwerte und Zeitpunkte zu. Die Lautdauern hängen in differenzierter Weise von zahlreichen Faktoren ab: Satzakzent, Stellung im Satz, Wortart, Anzahl der Silben im Wort, Lauttyp, Lautkontext, Intonationskontext und Sprechgeschwindigkeit.

Die Regeln werden in hierarchischer Abfolge angewandt. Für Gipfel- und Talkonturen der Sprechmelodie werden nicht ganze Verläufe parametrisch festgelegt, sondern nur zwei bis fünf charakteristische Punkte, zwischen denen am Schluß durch eine Cosinusfunktion interpoliert wird.

Beim natürlichen Sprechen ist innerhalb einer Phrase im allgemeinen jede Gipfel- und Talkontur etwas weniger ausgeprägt als die vorhergehende; bei mittlerem Sprechtempo beträgt die Absenkung des jeweiligen Maximalwertes ungefähr sechs Prozent. Dieses Phänomen muß das Prosodiemodell nachbilden, sonst würde ein Hörer die unabgesenkten Gipfel fälschlich als besonders hervorgehoben empfinden.

Andererseits kann ein Sprecher aus Anlaß einer neuen Phrase zum alten Gipfelmaximum zurückkehren; er wird es um so eher tun, je deutlicher die Trennung von alter und neuer Phrase ist. Eine solche Rückkehr ist also auch als unterstützendes Kennzeichen einer Phrasengrenze einsetzbar. Die Verläufe im Bild zeigen Absenkung, aber keine Rückkehr.

Weitere Regeln berücksichtigen den Einfluß von Sprechgeschwindigkeit und Tonlage auf die Grundfrequenzwerte und auf ihr Timing sowie den Einfluß der einzelnen Laute; so müssen geschlossene Vokale wie i und u höher und kürzer erklingen, damit die prosodische Wirkung die gleiche ist wie bei dem offenen Vokal a.

Am Ende dieses Verarbeitungsprozesses steht eine zeitliche Folge von Zahlenwerten: für jede Hundertstelsekunde, eine sogenannte Parameterwertmatrix. Daraus macht ein Formantsynthetisator, der auf einem Signalprozessor-Chip implementiert ist, ein digitales akustisches Signal, das nach einer üblichen Digital-Analog-Wandlung über einen Lautsprecher hörbar gemacht wird.

Das hier beschriebene TTS-System zur Erzeugung natürlicher Prosodie bedarf vor allem bei der syntaktischen Vorverarbeitung noch der Erweiterung, damit die prosodischen Marken völlig automatisch gesetzt werden und sich der menschliche Eingriff nach und nach erübrigt. Aber bereits jetzt liefern unsere Standardannahmen eine gut passende, natürlich klingende Prosodie in einer großen Vielfalt von Texten.

Vergleichende formale Bewertungstests, die an einer Reihe von TTS-Systemen für das Deutsche durchgeführt wurden, haben dem Kieler INFOVOX-System sehr gute Noten gegeben. insbesondere für die Prosodie. Daher findet das System auch hohe Akzeptanz und guten Absatz im Rahmen einer Schreibmaschine für Sehbehinderte, die ihrem Benutzer den soeben eingetippten Text zur Kontrolle vorspricht.

Literaturhinweise

- From Scenario to Segment. The Controlled Elicitation, Transcription, Segmentation and Labelling of Spontaneous Speech. Von Klaus Kohler, Matthias Pätzold und Adrian Simpson. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung der Universität Kiel, D-24098 Kiel. AIPUK Nummer 29, 1995.

– Prosody in Speech Synthesis: The Interplay between Basic Research and TTS Application. Von Klaus Kohler in: Journal of Phonetics, Band 19, Seiten 121 bis 138, 1991.

Aus: Spektrum der Wissenschaft 12 / 1996, Seite 109
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Download (Abo)

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Modellgesteuerte Prosodie-Erzeugung

Schreiben Sie uns!

Themenkanäle

Drogen

Mikrobiom

Alkoholismus