Direkt zum Inhalt

Künstliche Intelligenz: Finden wir KI-erzeugte Stimmen attraktiver als echte?

Die Zeit monotoner Computerstimmen ist vorbei. Können wir heute überhaupt noch unterscheiden, ob eine Stimme von einem Menschen stammt oder künstlich generiert wurde? Wovon es abhängt, ob wir Siri, Alexa und ihren zunehmend ausdrucksstärkeren Geschwistern zuhören mögen.
Digitale Kunstillustration eines stilisierten menschlichen Gesichts, das aus blauen, leuchtenden Linien und Punkten besteht. Das Gesicht ist rechts im Bild zu sehen und blickt nach links. Links im Bild ist eine wellenförmige Darstellung von Schallwellen in ähnlichen Blautönen zu sehen, die auf die Verbindung zwischen Technologie und Kommunikation hinweist. Der Hintergrund ist dunkelblau mit einem Muster aus kleinen Quadraten, das einen digitalen oder technologischen Kontext suggeriert.
Obgleich manchmal kaum unterscheidbar von natürlichen Stimmen, fehlt KI-Stimmen im Moment offenbar noch das gewisse Etwas.

Künstlich erzeugte Stimmen sind heute allgegenwärtig – sie untermalen als Voiceover die Werbung, lesen Bücher vor, sprechen Podcasts und helfen Menschen als Sprachassistenten dabei, mit der Technik zu kommunizieren. Forscherinnen des MPI für empirische Ästhetik in Frankfurt am Main konnten jetzt belegen, dass die KI-generierten Stimmen inzwischen oft so natürlich klingen, dass wir sie nicht mehr als solche erkennen. Allerdings bedeutet das nicht automatisch, dass wir sie auch genauso attraktiv wie menschliche Stimmen finden. Die Einschätzungen zu Anziehungskraft und Echtheit unterscheiden sich individuell und hängen unter anderem vom Alter des Zuhörers ab.

An der Studie – einer Zusammenarbeit mit der Universität für angewandte Kunst in Wien – nahmen 75 Personen zwischen 19 und 76 Jahren teil. Zwei Schauspielerinnen und zwei Schauspieler sprachen den Satz »Kids are talking by the door« (deutsch: »An der Tür unterhalten sich Kinder«) mal mit wenig, mal mit viel Ausdruck sowie mit ruhiger, fröhlicher, trauriger oder ärgerlicher Intonation. Mit genau den gleichen Anforderungen ließ das Team den Satz durch vier KI-Stimmen von zwei kommerziellen Plattformen generieren, die Text-to-Speech (TTS) anbieten.

Die Versuchspersonen beurteilten zunächst die Attraktivität aller Stimmen, gaben an, welche Emotion sie wahrgenommen hatten und wie gern sie mit dem Besitzer oder der Besitzerin zu tun haben würden. Erst danach wurde offengelegt, dass nicht alle Stimmen von realen Menschen stammten. Die Teilnehmer erhielten alle 32 Aufnahmen nun noch einmal zusammen mit der Frage, ob das Gehörte jeweils echt oder computergeneriert sei.

Menschliche Stimmen identifizierten die Probanden in 86 Prozent aller Antworten (Durchschnitt über die vier Stimmen) korrekt als »echt«. Ganz anders bei den KI-Stimmen: Eine der weiblichen KI-Stimmen (»Ava«) wurde beispielsweise weit öfter für menschlich als für synthetisch gehalten, »Kim« hingegen in mehr als 75 Prozent der Fälle als künstlich entlarvt. Im Schnitt lag die Trefferquote bei den KI-erzeugten Stimmen nur bei 55 Prozent, also knapp über dem Zufall. Am häufigsten ließen sich die Zuhörer von der KI täuschen, wenn diese »wütend« sprach. Ältere Teilnehmende hatten zudem insgesamt größere Probleme als jüngere, zwischen menschlichen und KI-generierten Stimmen zu unterscheiden, obwohl sie die Tonspuren beliebig oft abspielen durften.

Bei der Beurteilung der Attraktivität gab es deutliche Unterschiede zwischen den Zuhörern. »Manche Probanden entlarvten die KI-Stimmen sehr gut und mochten sie nicht, andere waren dagegen unempfindlich«, sagt Camila Bruder vom MPI, Erstautorin der Studie. Insgesamt wurden menschliche Stimmen jedoch als attraktiver empfunden als synthetische.

Das könnte sich ändern: »In unserer Studie war der Unterschied zwischen KI-Stimmen und menschlichen Stimmen rein akustisch gesehen noch sehr deutlich«, erklärt Bruder, »doch er wird in Zukunft immer kleiner werden.« Je mehr eine KI-Stimme der menschlichen Stimme in allen Aspekten gleicht, desto eher akzeptieren wir sie vermutlich auch. Allerdings glaubt die Forscherin nicht, dass professionelle menschliche Sprecher bald erfolgreich vollständig durch KI-Stimmen ersetzt werden, zumindest nicht bei anspruchsvolleren Texten wie in Hörbüchern: »Eine KI-Stimme bleibt immer in gewisser Weise stereotyp. Sie kann nicht so viele Nuancen und emotionale Tiefe in ihre Stimme legen wie ein Mensch.«

  • Quellen
Bruder, C. et al., Computers in Human Behavior: Artificial Humans 10.1016/j.chbah.2025.100211, 2025

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.