Direkt zum Inhalt
Login erforderlich
Dieser Artikel ist Abonnenten von Spektrum der Wissenschaft frei zugänglich.
Computertechnik

Die perfekte künstliche Stimme

Inzwischen kann eine Maschinenstimme die eines Menschen täuschend echt imitieren.
Alle Sprachverarbeitung beginnt mit dem Schallsignal, das vom Mikrofon aufgenommen wird. Man erkennt kurze Pausen zwischen einzelnen Wörtern und eine längere zwischen zwei Sätzen. Unten im Bild das Ergebnis einer (lokalen) Fourier-Analyse: Ähnlich dem, was in der Hörschnecke im menschlichen Innenohr geschieht, wird das Signal in seine Anteile zu verschiedenen Frequenzen zerlegt. Die Frequenzen sind entlang der vertikalen Achse aufgetragen; die weißen und gelblichen Farbtöne kennzeichnen die Amplitude zur jeweiligen Frequenz.

Aristoteles hatte die Stimme "den Spiegel der Seele" genannt. Wir erkennen einander an der Sprechstimme, und sie ist Ausdruck unserer Persönlichkeit und unserer Gefühle. Bis vor Kurzem schien die gesprochene Sprache allein dem Menschen eigen zu sein, doch in den letzten 20 Jahren haben synthetische Stimmen einen großen Aufschwung genommen. Heute bilden sie einen wesentlichen Teil der Digitaltechnik.

An der Schnittstelle zwischen Mensch und Maschine verleiht die Stimme der Maschine so etwas wie Persönlichkeit oder gar Seele. In naher Zukunft werden wir überall auf synthetische Stimmen stoßen, nicht nur aus dem Smartphone in der Hosentasche. Und es wird zweifellos immer schwieriger werden, sie von echten menschlichen Stimmen zu unterscheiden. Die Industrie investiert massiv in diesen Bereich, allen voran die Großunternehmen Google, Apple, Microsoft und Amazon.

Unsere Smartphones sind jetzt schon in der Lage, auf gesprochene Kommandos zu reagieren und mit synthetischen Stimmen zu antworten. Die Zukunft gehört der künstlichen Intelligenz, die Technik und Geräte in unseren Häusern steuert – allzeit bereit und in der Lage, sich lernend unseren sprachlichen Eigenheiten und Wünschen anzupassen. In Ansätzen leisten das bereits heute die Programme Google Assistant, Siri von Apple, Cortana von Microsoft und Alexa von Amazon …

September 2017

Dieser Artikel ist enthalten in Spektrum der Wissenschaft September 2017

Lesermeinung

1 Beitrag anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Leserzuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Leserzuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmer sich leichter auf Ihre Beiträge beziehen können. Vielen Dank!

  • Quellen

Mullennix, J. W., Stern, S. E. (Hg.): Computer Synthesized Speech Technologies: Tools for Aiding Impairment. IGI Publishing, Hershey (Pennsylvania) 2010

Obin, N.: MeLos: Analysis and Modeling of Speech Prosody and Speaking Style. Dissertation, Ircam-UPMC, 2011

Van den Oord, A. et al.: WaveNet: A Generative Model for Raw Audio. In: Proceedings of Interspeech, San Francisco 2016

Tokuda, K. et al.: Speech Synthesis Based on Hidden Markov Models. In: IEEE Transactions on Audio, Speech, and Language Processing 101, S. 1234-1252, 2013