Künstliche Intelligenz: Finden wir KI-erzeugte Stimmen attraktiver als echte?

Künstlich erzeugte Stimmen sind heute allgegenwärtig – sie untermalen als Voiceover die Werbung, lesen Bücher vor, sprechen Podcasts und helfen Menschen als Sprachassistenten dabei, mit der Technik zu kommunizieren. Forscherinnen des MPI für empirische Ästhetik in Frankfurt am Main konnten jetzt belegen, dass die KI-generierten Stimmen inzwischen oft so natürlich klingen, dass wir sie nicht mehr als solche erkennen. Allerdings bedeutet das nicht automatisch, dass wir sie auch genauso attraktiv wie menschliche Stimmen finden. Die Einschätzungen zu Anziehungskraft und Echtheit unterscheiden sich individuell und hängen unter anderem vom Alter des Zuhörers ab.
An der Studie – einer Zusammenarbeit mit der Universität für angewandte Kunst in Wien – nahmen 75 Personen zwischen 19 und 76 Jahren teil. Zwei Schauspielerinnen und zwei Schauspieler sprachen den Satz »Kids are talking by the door« (deutsch: »An der Tür unterhalten sich Kinder«) mal mit wenig, mal mit viel Ausdruck sowie mit ruhiger, fröhlicher, trauriger oder ärgerlicher Intonation. Mit genau den gleichen Anforderungen ließ das Team den Satz durch vier KI-Stimmen von zwei kommerziellen Plattformen generieren, die Text-to-Speech (TTS) anbieten.
Die Versuchspersonen beurteilten zunächst die Attraktivität aller Stimmen, gaben an, welche Emotion sie wahrgenommen hatten und wie gern sie mit dem Besitzer oder der Besitzerin zu tun haben würden. Erst danach wurde offengelegt, dass nicht alle Stimmen von realen Menschen stammten. Die Teilnehmer erhielten alle 32 Aufnahmen nun noch einmal zusammen mit der Frage, ob das Gehörte jeweils echt oder computergeneriert sei.
Menschliche Stimmen identifizierten die Probanden in 86 Prozent aller Antworten (Durchschnitt über die vier Stimmen) korrekt als »echt«. Ganz anders bei den KI-Stimmen: Eine der weiblichen KI-Stimmen (»Ava«) wurde beispielsweise weit öfter für menschlich als für synthetisch gehalten, »Kim« hingegen in mehr als 75 Prozent der Fälle als künstlich entlarvt. Im Schnitt lag die Trefferquote bei den KI-erzeugten Stimmen nur bei 55 Prozent, also knapp über dem Zufall. Am häufigsten ließen sich die Zuhörer von der KI täuschen, wenn diese »wütend« sprach. Ältere Teilnehmende hatten zudem insgesamt größere Probleme als jüngere, zwischen menschlichen und KI-generierten Stimmen zu unterscheiden, obwohl sie die Tonspuren beliebig oft abspielen durften.
Bei der Beurteilung der Attraktivität gab es deutliche Unterschiede zwischen den Zuhörern. »Manche Probanden entlarvten die KI-Stimmen sehr gut und mochten sie nicht, andere waren dagegen unempfindlich«, sagt Camila Bruder vom MPI, Erstautorin der Studie. Insgesamt wurden menschliche Stimmen jedoch als attraktiver empfunden als synthetische.
Das könnte sich ändern: »In unserer Studie war der Unterschied zwischen KI-Stimmen und menschlichen Stimmen rein akustisch gesehen noch sehr deutlich«, erklärt Bruder, »doch er wird in Zukunft immer kleiner werden.« Je mehr eine KI-Stimme der menschlichen Stimme in allen Aspekten gleicht, desto eher akzeptieren wir sie vermutlich auch. Allerdings glaubt die Forscherin nicht, dass professionelle menschliche Sprecher bald erfolgreich vollständig durch KI-Stimmen ersetzt werden, zumindest nicht bei anspruchsvolleren Texten wie in Hörbüchern: »Eine KI-Stimme bleibt immer in gewisser Weise stereotyp. Sie kann nicht so viele Nuancen und emotionale Tiefe in ihre Stimme legen wie ein Mensch.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.