Direkt zum Inhalt

Verbmobil - Übersetzungshilfe für Verhandlungsdialoge


Verbmobil ist ein Verbundprojekt des Bundesministeriums für Forschung und Technologie (BMFT) mit dem langfristigen Ziel, ein System zu entwickeln, das die Übersetzung eines Dialogs mit fremdsprachlichen Gesprächspartnern zu unterstützen vermag. Es geht nicht um neue Hardware oder die Ersetzung des klassischen Dolmetschers durch eine Maschine; die zu entwickelnde Software soll vielmehr auf transportablen Computern (daher der Name Verbmobil) nutzbar und während eines Gesprächs hilfsweise aktivierbar sein. Solange die erforderlichen Rechenleistungen und Datenmengen so nicht verfügbar sind, greift Verbmobil beispielsweise über drahtlose Telekommunikation auf stationäre Hochleistungsrechner zurück.

Das Projekt führt erstmals bislang getrennte Entwicklungslinien der Sprachtechnologie zusammen. Dies und der Zusammenschluß möglichst vieler Experten sollen Deutschland in den nächsten Jahrzehnten eine Spitzenposition in der Sprachtechnologie verschaffen.

Das Projekt ist auf acht bis zehn Jahre angelegt. Die erste vierjährige Phase ist in zwei Stadien gegliedert: Der Demonstrator, eine Frühversion des Systems, soll nach zwei, ein Forschungsprototyp nach vier Jahren verfügbar sein. Für die Zeit danach ist die Entwicklung zur Marktreife vorgesehen. Die wissenschaftliche Leitung liegt beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Saarbrücken.

Vorausgegangen waren zwei umfangreiche, vom BMFT in Auftrag gegebene Machbarkeitsstudien, eine öffentliche Ausschreibung und die Begutachtung aller eingegangenen Projektanträge. Eine der Studien wurde von einem deutschen Konsortium erstellt, an dem unter anderem die Universitäten Hamburg, Karlsruhe und Stuttgart, die Technische Universität Berlin, das DFKI sowie die Firmen Siemens und IBM beteiligt waren, die andere vom Center for the Study of Language and Information (CSLI) an der Universität Stanford (Kalifornien). Die Hauptphase des Projekts hat 1993 begonnen. Beteiligt sind die Unternehmen Alcatel SEL, CAP Debis, Daimler-Benz, IBM, Philips, Siemens und die Deutsche Aerospace sowie 20 deutsche Universitäten und Forschungsinstitute.

Das anspruchsvolle Ziel wird in einer Folge von wohldefinierten Schritten angestrebt. Der Forschungsprototyp wird den Dialog beispielsweise zwischen einem Deutschen und einem Japaner unterstützen, die beide Englisch verstehen, aber nicht perfekt sprechen können. Es wird angenommen, daß große Teile solcher Dialoge auf Englisch stattfinden, wie es für internationale Diskussionen im Bereich von Technik und Wirtschaft zutrifft. Aber bei wenig gebräuchlichen Wörtern oder Formulierungen, schwierigen Satzkonstruktionen und für den Gesprächserfolg wichtigen Diskussionsabschnitten möchten die Gesprächspartner auf ihre Muttersprache zurückgreifen. In derartigen Fällen soll jeder seine Version von Verbmobil (Deutsch-Englisch beziehungsweise Japanisch-Englisch) aktivieren können und es die nun folgenden Worte aus seiner Muttersprache ins Englische übersetzen lassen (Bild 1).

Demnach muß das System über drei verschiedene Arbeitsweisen verfügen:

- Solange beide Partner sich in Englisch als Fremdsprache unterhalten, muß Verbmobil offensichtlich nichts übersetzen, aber den Dialog verfolgen und Kontextinformation für nachfolgende Übersetzungsaufgaben extrahieren - gleichsam zuhören, damit es weiß, worum es geht. Dies ist ein extrem schwieriges Problem, weil die Gesprächspartner mit ihren für Deutsche beziehungsweise Japaner typischen Unzulänglichkeiten und Fehlern sich in Aussprache, Wortwahl und Grammatik viel weniger als ein Muttersprachler an die üblichen Regeln halten werden. Das System wird daher in den meisten Fällen nur ein sehr flaches (oberflächliches) und stark vereinfachtes Diskursmodell aufbauen können. Für die Realisierung will man zunächst auf Schlüsselworterkennung (word spotting) und andere robuste, aber nicht erschöpfende Analysetechniken zurückgreifen.

- Wenn einer der Dialogpartner innerhalb einer Äußerung in seine Muttersprache wechselt, da er spontan nicht imstande ist, seine Intention in Englisch weiterzuformulieren, soll Verbmobil eine englischsprachige Äußerung synthetisieren, die das bereits ausgesprochene englische Satzfragment korrekt fortsetzt.

- Der Gesprächspartner formuliert eine vollständige Äußerung in seiner Muttersprache, und Verbmobil übersetzt sie ins Englische. In diesem Falle muß es versuchen, möglichst ohne lästigen Zeitverzug eine angemessene Näherung an das zu finden, was der Sprecher sagen wollte. Auch ein menschlicher Dolmetscher muß in dieser Situation vielfältige Kompromisse eingehen. Entsprechend ist nicht zu erwarten, daß Verbmobil den Gehalt einer Äußerung nach Semantik (Bedeutung) und Pragmatik (Situationsangemessenheit) verlustlos in die Zielsprache überführt.

Auf absehbare Zeit werden seine Verstehens- und Übersetzungsfähigkeiten nicht ausreichen, die im Szenario unterstellten Kenntnislücken der Gesprächspartner perfekt zu überbrücken. Deswegen spielen Dialoge zur Behebung von Unklarheiten und Mißverständnissen eine wichtige Rolle. Im Projekt werden zwei Arten von Klärungsdialogen untersucht: solche zwischen den Gesprächspartnern, die Verbmobil ebenso unterstützt wie jeden anderen Dialog, und solche zwischen dem System und einem Benutzer, worin es diesen – der Zuverlässigkeit zuliebe in dessen Muttersprache – um zusätzliche, für die Übersetzung erforderliche Information ersucht.


Die Projektziele

Verbmobil baut auf den Ergebnissen mehrerer Vorgängerprojekte auf. Ein japanisches Zentrum für Sprachübersetzung, die ATR Interpreting Telecommunications Research Laboratories in Kioto, konnte Anfang 1993 die erste Phase des Projektes ASURA (Advanced Speech Understanding and Rendering System of ATR) zur Übersetzung von Telephongesprächen mit einer erfolgreichen Demonstration abschließen. JANUS, ein Projekt der Carnegie-Mellon-Universität (CMU) in Pittsburgh (Pennsylvania) und C-STAR, ein Gemeinschaftsprojekt von ATR, der CMU und Siemens, haben sich die Übersetzung von telephonisch geführten Auskunftsdialogen – Gespräche zum Zweck der Informationsbeschaffung, in denen eine Seite allein die Initiative hat – zum Ziel gesetzt.

Im Gegensatz dazu geht es bei Verbmobil nicht um Gespräche über das Telephon, sondern in kleinen Räumen von Angesicht zu Angesicht. In einer solchen Situation können Mimik und Gestik zusätzliche Information transportieren. Im Forschungsprogramm sind Untersuchungen darüber vorgesehen, wie menschliche Übersetzer und Dolmetscher sich in ähnlichen Situationen verhalten.

Es geht – ebenfalls im Gegensatz zu den Vorgängerprojekten – von Beginn an nicht um die Verarbeitung abgelesener Texte, sondern um das schwierigere Verstehen inkrementell – das heißt nicht vorgeplant, sondern von einem Augenblick zum nächsten – erzeugter Spontansprache. Solche Äußerungen sind selten grammatisch korrekt. Verbmobil muß deshalb mit abgebrochenen Sätzen, Einschüben, Selbstkorrekturen und ähnlichem umgehen können.

An der Universität Karlsruhe sind sogenannte Müllmodelle entwickelt worden. Nicht bedeutungstragende Geräusche wie Räuspern, Schmatzen, äh und ehm werden bei der Spracherkennung zunächst wie spezielle Wörter behandelt und für die weitere Analyse aus der Eingabe entfernt. Ein bei Siemens entwickeltes neuartiges Verfahren zur robusten Analyse fehlerhafter Äußerungen korrigiert beispielsweise den Satz "Die Teilnehmer der Sitzung sind heute ehm kommen morgen" automatisch in "Die Teilnehmer der Sitzung kommen morgen".

Der Demonstrator soll eine Diskurssituation beherrschen, in der die Partner ihr nächstes Treffen vereinbaren, wobei sie ihre Terminkalender benutzen (Bild 2). Inzwischen wurden schon mehr als 200 Terminabsprachen mit Versuchspersonen aufgenommen, niedergeschrieben und analysiert. Die gewonnenen Daten werden auf einer eigens gepreßten CD-ROM an die Forschungsgruppen verteilt, die damit ihre Spracherkennungsprogramme trainieren. Bisherige Erfahrungen bei der Datensammlung zeigen, daß man sich für dieses Szenario auf ein Vokabular von etwa 1500 Wörtern beschränken kann.

Für den Forschungsprototyp soll der Anwendungsbereich weiter ausgedehnt werden, beispielsweise auf die Planung einer gemeinsamen Geschäftsreise, wobei die Partner auf verschiedene Termin- und Verkehrspläne zurückgreifen. Man will grundsätzlich voraussetzen, daß das Gesprächsthema eingeschränkt ist, die Dialogziele der Partner vorher bekannt sind, beide das Gespräch kooperativ führen und sehr an dessen erfolgreichem Abschluß interessiert sind.

Auch unter diesen Einschränkungen ist die Aufgabe noch schwer genug. Verbmobil muß eine Reihe von Teilproblemen lösen: das Sprachsignal analysieren, daraus Hypothesen für Wörter gewinnen, die Satzstruktur erkennen, daraus unter Einbeziehung von Wissen über Gesprächsthema und -kontext eine Darstellung der Bedeutung erzeugen, diese in einem Übersetzungsprozeß in die Zielsprache Englisch überführen, eine Satzstruktur und daraus schließlich einen gesprochenen Text erzeugen. Anerkannte Theorien aus den Bereichen Künstliche Intelligenz, Computerlinguistik, Spracherkennung, Neuroinformatik und Übersetzungswissenschaft tragen zu einem interdisziplinären Ansatz bei. Für alle Teilprobleme gibt es bereits erste Software-Lösungen, deren komplexes, mehrfach rückgekoppeltes Zusammenspiel jedoch noch intensiver Forschung bedarf.

Offensichtlich muß man gerade für ein System wie Verbmobil besonders auf das Verhältnis von Verarbeitungsgeschwindigkeit und Qualität der Übersetzung achten. Um einer schritthaltenden Übersetzung von Äußerungen möglichst nahe zu kommen, ohne den natürlichen Dialogfluß durch lange Wartezeiten zu stören, sollten Spracherkennung und -analyse nicht tiefer als nötig gehen sowie die Übersetzung so flach wie möglich und der Generierungsprozeß so früh wie möglich erfolgen. Das bedeutet, daß die Hauptkomponenten des Systems nicht erst abwarten dürfen, bis alle relevanten Informationen beisammen sind, sondern jeden Teil des Eingabestroms berarbeiten müssen, sowie er eintrifft (inkrementelle Arbeitsweise).

Bei der Übersetzung ist dieses Konzept eng verknüpft mit der Idee der variablen Verarbeitungstiefe. Zur Analyse der Bedeutung einer Äußerung muß Verbmobil eine Hierarchie von Repräsentationen benutzen, die in den oberflächennahen Ebenen in verschiedener Weise unvollständig sein dürfen. Zu jeder Ebene muß es eine spezielle Inferenzkomponente geben: ein Programmsegment, das die vorliegende Aussage nach den Regeln der Logik umformen, insbesondere aus ihr Schlüsse ziehen kann.

Andererseits ist bereits eine oberflächliche Repräsentation für die nachgeschaltete Übersetzungskomponente häufig eine brauchbare Arbeitsgrundlage. Beispielsweise ist die Zweideutigkeit eines Satzes wie "Der Mann sieht die Frau mit dem Teleskop" nur mit beträchtlichem Vorwissen oder überhaupt nicht aufzulösen. Häufig hat jedoch die Zielsprache eine genau gleichartige Mehrdeutigkeit, so daß deren Auflösung dem menschlichen Dialogpartner überlassen bleiben kann. Für Verbmobil bedeutet dies, daß der Sprachgenerator auch aus unvollständig spezifizierten Eingaben – wenn etwa wegen schlechter Aussprache Singular und Plural nicht zu unterscheiden sind – und sogar disjunktiven semantischen Strukturen (entsprechend Aussagen der Form "A oder B", weil die Analysekomponente - bislang – keine der beiden ausschließen konnte) Dialogbeiträge in der Zielsprache zustande bringen muß.

Durch Kopplung verschiedener Satzbaupläne im Deutschen und im Englischen wurde in Verbmobil bereits ein Modul zum schnellen Transfer von Redewendungen entwickelt. Aus dem Satz "Lassen Sie uns doch solch einen Termin ausmachen" wird in 0,8 Sekunden "Let us just fix such a date".

Der Erfolg eines so anspruchsvollen Übersetzungsprojekts hängt offensichtlich von internationaler Kooperation ab. Deshalb ist unter anderem eine intensive Zusammenarbeit mit ATR in Kioto geplant. Im März 1993 hat dieses Zentrum ein neues Projekt gestartet, das bis März 2000 dauern soll. Wie in Verbmobil wird dabei die Übersetzung spontansprachlicher Dialoge angestrebt. Während in ASURA jeder neue Sprecher vor dem Dialogbeginn noch etwa zehn vordefinierte Wörter für die Sprecheradaption vorlesen muß, soll in dem Folgeprojekt wie in Verbmobil eine dynamische Sprecheradaption während des Dialoges stattfinden. Hauptgebiete der geplanten Kooperation sind die Datensammlung, Spracherkennungsmodule und linguistische Wissensquellen für die japanische Sprache.

In Korea wird am Center for Artificial Intelligence Research (CAIR) des Korea Advanced Institute of Science and Technology (KAIST) seit 1991 das auf 15 Jahre angelegte Dialogübersetzungsprojekt ATI (Automatic Telephony Interpretation) durchgeführt, bei dem in der ersten, auf sieben Jahre geplanten Phase – sehr ähnlich zu Verbmobil – die Übersetzung koreanischer Spontansprache ins Englische im Vordergrund steht.

Für Arbeitspakete zum Englischen sind Kooperationen mit dem erwähnten CSLI sowie mit einer Forschergruppe an der Carnegie-Mellon-Universität in Pittsburgh (Pennsylvania) vorgesehen.


Aus: Spektrum der Wissenschaft 3 / 1994, Seite 99
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!