Direkt zum Inhalt

Dein Computer spricht mit dir

Durch Spracherkennungs- und Sprachsynthesesysteme wird man schon bald Informationen einholen und Befehle erteilen können, ohne auch nur einen Finger zu rühren.


Mensch und Maschine sprechen schon seit Jahrzehnten miteinander – in der Science-fiction. Das liegt nicht nur an dem Wunsch – dessen Erfüllung die Autoren vorweggenommen haben –, Maschinen so menschenähnlich wie möglich zu gestalten. Sprache ist auch einfach natürlich: Zuerst lernen wir sprechen, dann lesen und schreiben. Sprechen geht schnell – bei den meisten Menschen etwa fünfmal so schnell wie Maschineschreiben und wahrscheinlich bis zu zehnmal so schnell wie Schreiben mit dem Bleistift. Und es kommt ohne Hilfsmittel aus: Wir müssen weder etwas in der Hand halten noch etwas sehen, um uns zu unterhalten.

Allmählich nimmt die erste Generation von Sprach-Ein- und Ausgabesystemen Gestalt an (vergleiche Spektrum der Wissenschaft, März 1994, S. 90, und Dezember 1996, S. 100). Darunter sind Hochleistungs-Spracherkenner, die einige zehntausend Wörter erkennen können. Diktiersysteme von IBM, DragonSystems, Lernout & Hauspie und Philips sind heute schon im Fachhandel erhältlich. Andere Systeme erkennen und verarbeiten Spontansprache über das Telephon. Die ersten wurden in den Bell-Laboratorien des Telekommunikationskonzerns AT&T entwickelt; es folgten Unternehmen wie Nuance, Philips und SpeechWorks. Ein System auf dem Stand der Technik steckt hinter dem virtuellen Assistenten "Portico" von General Magic, der dem Anrufer die neuesten Nachrichten und Börsenberichte mitteilt und sogar E-Mail vorliest. Für das Projekt Oxygen sind jedoch noch erhebliche Fortschritte erforderlich.

Nach meiner Überzeugung wird sich ein Mensch mit einem Sprachsystem der nächsten Generation ebenso verständigen können wie mit einem anderen Menschen. Das ist ein sehr anspruchsvolles Programm. Es genügt nicht mehr, wenn der Computer wie bisher das Gehörte in digitale Symbole überträgt – selbst wenn diese einen Satz in korrekter Rechtschreibung bilden –; es muß Software hinzukommen, welche die Bedeutung der gesprochenen Worte erkennt.

Auf der Ausgabeseite muß sich der Computer sprachlich ausdrücken können. So muß er aus einem Dokument im World Wide Web die gesuchte Information herausfiltern und in einen wohlgeformten Satz verwandeln. Zur Vermeidung von Mißverständnissen muß er rückfragen können: "Sagten Sie Rotenburg oder Rottenburg?"

Am Informatiklabor des MIT arbeiten wir seit zehn Jahren an verständigungsfähigen Systemen dieser Art. Leider sind unsere Produkte bisher nicht sonderlich intelligent; sie können nur beschränkte Wissensgebiete wie Wettervorhersagen und Flugplanauskünfte bewältigen. Aber die Informationen sind stets auf dem neuesten Stand, und Sie können sie telefonisch abfragen. Die Maschinen beherrschen mehrere Sprachen, wobei wir uns besonders auf amerikanisches Englisch, Spanisch und Mandarin-Chinesisch konzentrierten. Die Antwort kommt fast in Echtzeit, also kaum langsamer als während einer natürlichen Konversation – wenn man von Verzögerungen bei der Datenbeschaffung im World Wide Web absieht.

Allen Anwendungen zugrunde liegt eine Architektur namens Galaxy, die unsere Gruppe vor fünf Jahren eingeführt hat. Es handelt es sich um eine nichtlokale Architektur, das heißt, die Berechnungen sind nicht an eine Maschine gebunden, sondern auf verschiedene Server verteilbar. Auf die Anfrage eines Nutzers hin kann Galaxy in verschiedenen Datenbanken nachschlagen. Das System kann mehrere Nutzer zugleich bedienen und ist mobil. Um es zu erreichen, genügt ein Telephon, aber wenn Sie einen Internetanschluß haben, überträgt das System auch Daten an Ihren Computer.

 

Galaxy spricht

Galaxy hat fünf Hauptfunktionen: Spracherkennung, Interpretation, Informationsbeschaffung, Satzerzeugung und Sprachausgabe (Bild unten). Stellen Sie dem System eine Frage, so vergleicht zunächst ein Programm namens Summit Ihre Laute mit einer Datenbank von Phonemen, den kleinsten Einheiten, aus denen gesprochene Sprache sich zusammensetzt. Danach rät es, was Sie gesagt haben könnten; dabei erstellt es eine Liste von denkbaren Sätzen, geordnet nach Plausibilität. Diese reicht es an ein Programm namens Tina weiter, das auf einem anderen Server sitzt und die Satzkandidaten in ihre grammatischen Bestandteile – Subjekt, Prädikat, Objekt und so weiter – zerlegt. Tina wandelt dann den Satz (sofern er als hinreichend wohlgeformt erkannt ist) in ein semantisches Gerüst um, eine Liste von Befehlen, die das System verstehen kann. Hätten Sie zum Beispiel gefragt: "Wo ist das MIT-Museum?", würde Tina die Frage in einen Befehl des Inhalts "Lokalisiere das Museum mit dem Namen ,MIT-Museum‘" umformen.

An diesem Punkt ist Galaxy fähig, nach der Antwort zu suchen. Ein drittes System namens Genesis analysiert die Anfrage, bestimmt daraufhin die Datenbank, in der die geforderte Information zu suchen ist, und formuliert das semantische Gerüst in einen speziellen Abfragebefehl für diese Datenbank um. Ist die Information beschafft, macht Tina aus diesen Daten ein neues semantisches Gerüst, und Genesis formuliert einen Antwortsatz in der Muttersprache des Nutzers: "Das MIT-Museum befindet sich in Cambridge, Massachusetts Avenue 265", den schließlich ein kommerzielles Sprachsyntheseprogramm auf einem weiteren Server in Hörbares umwandelt.

Unser Labor bietet gegenwärtig etwa ein halbes Dutzend telephonisch erreichbarer Programme an, die mit Galaxy arbeiten. Jupiter hält Wetterberichte für 500 Städte weltweit parat. Pegasus gibt Auskunft über täglich 4000 Linienflüge in den Vereinigten Staaten und wird alle zwei bis drei Minuten auf den neuesten Stand gebracht. Voyager gibt Verkehrs- und Straßeninformationen für Autofahrer in und um Boston. Um von einem Programm zum anderen überzugehen, sagt der Nutzer einfach "Ich möchte mit Jupiter sprechen" oder "Verbinde mich mit Voyager". Seit Mai 1997 hat Jupiter mehr als 30000 Anrufe entgegengenommen und dabei etwa 80 Prozent aller Anfragen von Erstnutzern richtig verstanden. Zur Verbesserung des Systems werden alle Anrufe aufgenommen und ausgewertet (siehe Kasten Seite 67).

Ein Handy 21 mit Spracherkennung wäre das ideale Mobilgerät, da man sich die sperrige Tastatur ersparen könnte. Zudem wäre natürliche Sprache eine sehr effiziente Kommunikationsweise. So könnte ein Geschäftsreisender seinen Computer anweisen: "Sag Bescheid, sobald die Microsoft-Aktie über 160 Dollar steigt!" Die Maschine würde dann wie ein menschlicher Assistent eine Vielzahl von Aufgaben mit nur wenigen Anweisungen lösen.

Natürlich ist die Forschungsarbeit noch lange nicht abgeschlossen. Wir müssen Spracherkennungsprogramme entwickeln, die nicht nur ein einfaches Wissensgebiet beherrschen, sondern viele umfangreiche. Sie müssen dann auch wissen, in welcher Datenbank sie nachsehen müssen, ohne daß der Nutzer es ihnen ausdrücklich dazusagt. Die Anzahl der angebotenen Sprachen muß ebenfalls erhöht werden.

Schließlich: Das optimale System tut nicht nur das, was ich sage, sondern auch, was ich meine. Es erkennt meine Absichten und antwortet im richtigen Kontext. Solch fortgeschrittene Systeme werden wohl noch etwa zehn Jahre auf sich warten lassen, aber sobald sie einsatzbereit sind, werden sie zu einem festen Bestandteil von Oxygen werden.


Aus: Spektrum der Wissenschaft 12 / 1999, Seite 66
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Kennen Sie schon …

Spektrum der Wissenschaft – Sprache: Sprache

Sprache: Eine einzigartige Fähigkeit - Entwicklung: Wie Kinder das Sprechen lernen • Medizin: Skurrile Ausfälle durch Hirnschäden • Technik: Stimmen aus dem Computer

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.