Sprechende Maschinen
Siri rät uns, ob wir einen Regenmantel einpacken sollten; Alexa dreht die Heizung höher und Google Assistant erinnert an den Arzttermin. Digitale Sprachassistenten sind aus dem Alltag vieler Personen kaum noch wegzudenken. »Die menschliche Stimme ist das neue Interface«, schreibt der Wissenschaftsjournalist Christoph Drösser in seinem Buch »Wenn die Dinge mit uns reden«. »Mit ihr kann man viele Kommandos leichter und schneller geben als über eine Tastatur oder einen Bildschirm mit vier Untermenüs.«
Was uns zum Menschen macht
Noch sei der Kommandoton (»Mach das Licht im Bad aus«) vergleichbar mit dem Exerzierplatz, wo die Kommunikation vom Offizier zum Untergebenen in bloß eine Richtung verlaufe. Doch in Zukunft könnten Computer immer öfter antworten, schätzt Drösser: »Wir treten zum ersten Mal in der Menschheitsgeschichte in einen Dialog mit nichtmenschlichen Entitäten.«
Dass wir überhaupt mit Maschinen sprechen, setzt voraus, dass die Geräte uns verstehen – eine Fähigkeit, die man dem Menschen zuschreibt. Der Philosoph René Descartes glaubte, man erkenne das Menschsein unseres Gegenübers an der Sprache. Wenn diese Eigenschaft uns also von Dingen unterscheidet, dann war der Traum der sprechenden Maschine im 18. Jahrhundert ambivalent – oder gar frevlerisch –, weil er fundamentale humanistische Prinzipien in Frage stellte.
Der ungarische Tüftler Wolfgang von Kempelen entwickelte bereits 1780 eine »Sprechmaschine« – eine Apparatur, die mit Hilfe eines Blasebalgs, einer Zungenpfeife und eines Trichters menschliche Laute nachahmte. Zwei Jahre lang tourte der Autodidakt mit seinem Automaten im Gepäck durch Europa. Es sei »eines der ersten Modelle für ein nichtmenschliches Wesen oder Ding, das zu uns in mehr oder weniger gut artikulierter Sprache redet«, erklärt Drösser. Zwar habe das Gerät die Wörter nicht selbst, sondern eine Person mit einer Orgeltastatur gesteuert. Doch der Klang, der einer menschlichen Stimme ähnelte, habe die Leute in ihren Bann gezogen. Ähnlich sei es, wenn Nutzer das erste Mal mit Siri oder Alexa kommunizieren. Allerdings war der Weg von der Sprechmaschine zu modernen Sprachassistenten sehr lang.
Einen Meilenstein legte dabei das Programm Eliza, das der Computerpionier Joseph Weizenbaum 1966 am MIT in Cambridge präsentierte. Der Chatbot sollte ein Gespräch zwischen einem Psychotherapeuten und seinem Patienten simulieren. Die Software besaß noch keine Maschinenintelligenz und reagierte auf bestimmte Schlüsselwörter, was im Grunde eine Parodie auf die Psychotherapie darstellte.
Seitdem haben sich Sprachcomputer kontinuierlich weiterentwickelt. Die synthetischen Computerstimmen wurden durch täuschend echt klingende Frauen- oder Männerstimmen abgelöst, die sogar Verlegenheitslaute wie »Äh« und »Hm« in ihren Redefluss einbauen. Dass die Sprachfähigkeit digitaler Assistenten so rasant vorangeschritten ist, hat einen zentralen Grund: Künstliche Intelligenz oder genauer gesagt die Fortschritte auf dem Gebiet der natürlichen Sprachverarbeitung (englisch: Natural Language Processing, kurz NLP).
Statt wie bisher bei der symbolischen Methode der Sprachverarbeitung akustische Signale in einzelne Laute, so genannte Phone zu unterteilen, orientieren sich die neuen Verfahren maschinellen Lernens weniger an abstrakten Grammatikregeln, sondern am Erwerb der Muttersprache. Ähnlich wie ein Kleinkind erkennen neuronale Netze mit statistischen Mechanismen Silben und Wörter, deren Kombination am wahrscheinlichsten ist. Spracherkennung, hebt der Autor hervor, bedeutet auch heute noch jede Menge Handarbeit. So arbeiten bei Amazon 10 000 Menschen an der Weiterentwicklung von Alexa, die das System mit immer neuen Fragevarianten trainieren.
In seiner Analyse beschränkt sich Drösser aber nicht nur auf das Potenzial von Sprachprogrammen, sondern geht auch auf die Risiken ein. So könnte das Sprachmodell GPT-2 von OpenAI (und genauso sein Nachfolger GPT-3) massenhaft Fake News verbreiten. Zudem erforderten Sprachassistenten, die ihre Nutzer rund um die Uhr betreuen, einen tiefen Einblick in das Privatleben: Kalender, Adressbuch, Aufenthaltsort, Kreditkartendaten, Kontostand – das alles muss der digitale Assistent kennen, wenn er das Leben des Nutzers managen soll. Und das berge Risiken für die Privatsphäre.
Der Autor stützt seine Ausführungen unter anderem auf mehrere Interviews, die er für das Buch geführt hat. Besonders interessant ist das Gespräch mit der Informatikerin Leigh Clark, die über die ideale Computerstimme nachdenkt. Die Frage, wie eine Sprechmaschine klingen soll – menschlich oder roboterhaft, servil oder selbstbewusst, männlich oder weiblich – wird Maschinenethiker und Computerlinguisten noch ein paar Jahre beschäftigen.
Christoph Drösser hat ein kluges und facettenreiches Buch geschrieben, das auf zugängliche Weise technikphilosophische, linguistische und computerwissenschaftliche Fragestellungen miteinander verknüpft. Jedem, der sich für Sprachcomputer interessiert, sei dieses Buch empfohlen.
Schreiben Sie uns!
Beitrag schreiben