Mensch-Maschine-Interaktion: Redselige Chips

Wenn Computer Gesten und Mimik zu deuten wissen, verstehen sie auch Feinheiten der Sprache.

Sie wünschen?" "Ich muss heute Mittag nach München, wann fährt da der nächste Zug? Und können Sie nachschauen, wie ich da vom Bahnhof zur Uni komme?" Ein solcher Dialog sollte einem Beamten der Bahnauskunft weiter keine Probleme machen. Er weiß, wo er sich gerade befindet, kann auf einer Uhr die Tageszeit ablesen und versteht die Fahrpläne zu lesen. In wenigen Jahren sollen computergesteuerte Kommunikations-Kioske auf Flughäfen und Bahnhöfen den Beamten ersetzen.

Das ist eines der Anwendungsszenarien für eine neue Generation von Mensch-Maschine-Interaktionen. Die erforderliche Technologie zu entwickeln scheint den Unternehmen der Kommunikations- und Informationstechnik ein Gebot der Stunde. Microsoft-Gründer Bill Gates sieht nur dann Chancen für eine Erweiterung des Marktes für Anwendersoftware, wenn selbst ein Computerlaie sie über eine auf ihn abgestimmte und intelligente Schnittstelle bedienen kann. Die geradezu universelle Einsetzbarkeit von Computerchips selbst in Haushaltsgeräten verleiht der Forderung Nachdruck.

Wie eine natürliche Bedienung eines elektronischen Geräts aussehen könnte, erforscht Wolfgang Wahlster, Institutsleiter und Geschäftsführer des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) in Saarbrücken. Für das Projekt "Sprachverstehende Computer als Dialog- und Übersetzungsassistenten" (Verbmobil) erhielt er im vergangenen Jahr den Deutschen Zukunftspreis für Technik und Innovation. Das Folgeprojekt "SmartKom" soll nun die Spracherkennung durch zusätzliche Bildverarbeitung und Wissensdatenbanken verbessern sowie um Assistenzfunktionen erweitern.

Verbmobil erkennt, analysiert und übersetzt Spontansprache mit allen ihren Ungereimtheiten und Versprechern in eine andere Sprache (Spektrum der Wissenschaft 3/1994, S. 99). Nicht weniger als dreißig deutsche Hochschulen, Forschungsinstitute und Unternehmen waren an der Entwicklung beteiligt. Auf dem amerikanischen Markt waren sprachgesteuerte Diktiersysteme allerdings kein Erfolg: Ein Jahr nach der Einführung 1997 benutzten nur noch etwa zehn Prozent der Käufer ihr Gerät, weil die Fehlerrate trotz sprecherabhängigen Trainings bei fünf bis zehn Prozent blieb. Je natürlicher der Benutzer sprach, desto höher fiel sie aus. Im nächsten Schritt bezogen die Wissenschaftler deshalb auch den Kontext eines Satzes in die Sprachverarbeitung mit ein, ebenso dialektische Sprachfärbungen, Betonungen sowie die Satzmelodie. Nicht anders erschließt sich auch der Mensch den Inhalt von Gesagtem.

Doch um einen Sachverhalt fehlerfrei zu erkennen und zu übersetzen, ist oft auch Wissen um den Gesprächsgegenstand erforderlich. Beispielsweise lässt eine Verabredung "zum Essen" im Deutschen die Tageszeit offen, eine Übersetzung ins Englische sollte aber zwischen lunch (Mittagessen) und dinner (Abendessen) unterscheiden. Dazu müssen ganze Wortwendungen, Satzbruchstücke und Idiome mit Wissen verknüpft in Datenbanken hinterlegt werden. Weil die große Datenmenge nicht anders zu bewältigen wäre, separiert Verbmobil die Bereiche Reiseplanung, Hotel- und Gaststättenreservierung, Konferenzen und Terminplanung und nutzt für Deutsch, Englisch oder Japanisch jeweils andere Wissensquellen.

Auf dieser Sprachtechnologie basieren mittlerweile einige Telefonauskunftssysteme, die der Benutzer wohl kaum sonderlich wahrnimmt. Dazu gehört ein Börsentelefon von Sympalog, die Bahnauskunftssysteme Taba von Philips und Oscar von DaimlerChrysler sowie Alf von DaimlerChrysler, das über Abflug- und Ankunftszeiten der Lufthansa informiert. Der Automobilkonzern bietet als Sonderausstattung eine sprachgesteuerte Bedienung für Telefon und Klimaanlage an. Weitere derartige Funktionen für nicht sicherheitsrelevante Komponenten wie Navigationssystem, Radio, CD-Player oder Fensterheber kommen noch in diesem Jahr auf den Markt.

Inzwischen erreicht Verbmobil in kommerziellen Systemen eine Trefferquote von etwa 95 Prozent – zumindest solange das zu verarbeitende Sprachsignal ungestört ankommt. Was aber, wenn der Bahnreisende unseres Eingangsbeispiels seine Anfrage undeutlich nuschelt? Und wie soll der Computer erkennen, dass ein "Wenn es geht, noch heute" ironisch gemeint ist, selbst wenn er mit Ironie und Sarkasmus umzugehen wüsste? Menschen lösen dieses Problem, indem sie weitere Informationsquellen in die Sprachverarbeitung einbeziehen, und genau das soll SmartKom auch: Deuten und Verstehen von Gestik und Mimik soll die Fehlerrate weiter senken. Auch das Wissen um den Gesprächsgegenstand muss ausgebaut werden.

Um den Mensch-Maschine-Dialog so "natürlich" wie möglich zu gestalten, wird die Benutzerschnittstelle personifiziert, einfacher gesagt: Sie präsentiert sich als Dialogpartner "Smartakus". Realisiert wird er als Software-Agent, also als ein Programm, das selbstständig innerhalb des Systems agiert und über eine rudimentäre Intelligenz verfügt. Smartakus versteht, was man ihm sagt, kann sogar fehlerhafte oder unvollständige Eingaben sinnvoll interpretieren oder gegebenenfalls nachfragen, um so die Absichten des Nutzers zu erschließen.

Das Eingangsbeispiel könnte dann wie folgt ablaufen:

Smartakus: "Bitte, womit kann ich Ihnen dienen?"

Reisender: "Ich muss heute Mittag nach München, wann fährt der nächste Zug?"

Smartakus: "Sie möchten zwischen 11:00 und 13:00 Uhr nach München-Hauptbahnhof fahren?"

Reisender: "Ja, richtig."

Smartakus: "Es bestehen folgende Verbindungen: Mit dem Intercity ..."

Das System erkennt und interpretiert die Eingabe "Mittag" und unterstellt zunächst, dass mit der Ortsangabe der Hauptbahnhof in München gemeint ist. Mit seiner Gegenfrage vergewissert es sich, ob es richtig verstanden hat, ansonsten kann der Benutzer korrigieren. Das muss auch dann funktionieren, wenn er die Äußerungen von Smartakus ungeduldig unterbricht. Der Kommunikationsassistent muss sich dazu auf Benutzer und seine Gesprächsdomäne individuell einstellen.

Des Menschen bester Freund ist sein Handy

Um zusätzlich Gestik und Mimik als Informationsquellen zu verwerten, verfügt das System über eine Infrarot- und eine Videokamera nebst grafischer Bildverarbeitung. Analysiert der Rechner das akustische Signal synchron zu den optischen Daten, kann er Mehrdeutigkeiten einer sprachlichen Äußerung oftmals schon erheblich reduzieren. Umgekehrt vermag er aber auch eine mehrdeutige Geste oder einen zweideutigen Gesichtsausdruck anhand der gesprochenen Information zu interpretieren.

Die Gesamtaufgabe ist beliebig komplex: Die meist unbewusst eingesetzte Mimik oder ein emotionaler Ausdruck in der Sprache tragen ja im realen Dialog zwischen Menschen Information und verändern den Diskurs. Das gilt ebenso für real-manipulative Aktionen wie das physische Einbringen eines Dokumentes. Deshalb müssen zunächst Merkmale definiert werden, die es ermöglichen, Gestik, Mimik und sprachliche Emotionen zu erkennen und zu interpretieren. Das sind bei der Mimik Kontraste im Videobild, insbesondere in der Mundpartie, die mit Aufnahmen verglichen werden, um zwischen einem zustimmenden, einem neutralen und einem ablehnenden Gesichtsausdruck zu unterscheiden.

Fürs Erste suchen die Wissenschaftler der beteiligten zwölf Projektpartner die Anforderungen zu vereinfachen, indem sie sich auf die Entwicklung von Analysatoren für die einzelnen Eingabemodalitäten – Sprache, Gestik, Mimik – konzentrieren, und zwar ohne ihre Wechselwirkung zu berücksichtigen. Das folgt erst im Entwicklungsschritt.

Die Ergebnisse dieses Projekts sollen nicht nur Reisenden etwa auf Bahnhöfen oder in Flughäfen zugute kommen, sondern auch dem Benutzer intelligenter Haustechnik und Mobilkommunikation. Deshalb werden Internetzugang, GPS-Ortungs- und Navigationssysteme zur Ausstattung gehören. "In ferner Zukunft", so fabuliert Wolfgang Wahlster, "wenn der Computer gelernt hat, Ironie, Sarkasmus, Zustimmung und Ablehnung, Lob und Tadel zu unterscheiden, wird er so menschliche Züge bekommen, dass wir uns mit ihm wie mit einem Menschen unterhalten können." Dass das schon im Kleinen funktioniert, zeigt das japanische sprachgesteuerte Roboterhündchen Aibo, entwickelt von Sony. Er gehorcht auf Kommando, spielt Fußball, versteht dank eines SmartKombasierten Computerbausteins Deutsch und reagiert auf Streicheleinheiten. Ob es eines Tages Fahrstuhltüren geben wird, die – wie der englische Science-Fiction-Autor Douglas Adams ironisch schilderte – dem Benutzer freudig für die Möglichkeit der Pflichterfüllung danken, sei dahingestellt. Das Ziel von Wolfgang Wahlster aber werden viele unterstreichen: Technik auch ohne Expertenwissen bedienbar machen.

Aus: Spektrum der Wissenschaft 6 / 2002, Seite 93
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Download (Abo)

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Mensch-Maschine-Interaktion: Redselige Chips

Kennen Sie schon …

Spektrum Psychologie – Beziehungsunfähig – was heißt das eigentlich?

Spektrum Kompakt – Signale des Körpers

Spektrum - Die Woche – Was Gesten verraten

Schreiben Sie uns!

Themenkanäle

Die Signale des Körpers

Materialforschung

Kreativität