Direkt zum Inhalt

Affective Computing: Wie KI-Algorithmen unsere Gefühle erfassen

Künstliche Intelligenz erkennt Muster – und sucht sie immer öfter in unseren Stimmen und Gesichtsausdrücken. So sollen die Algorithmen lernen, unsere Emotionen zu ergründen.
Das Gesicht eines Menschen mit Nullen und Einsen
KI-Programme können subtile Signale, die wir unbewusst senden, teilweise besser wahrnehmen als wir Menschen.

Wir können gar nicht anders. Bei jedem Satz, den wir sprechen, und bei jedem Blick, den wir jemandem zuwerfen, schicken wir eine Flut subtiler Signale mit. Die Informationen sind entscheidend für unser Zusammenleben: Eine Aussage wird vom Gegenüber je nach Ton, Mimik und Gestik völlig unterschiedlich interpretiert. Inzwischen erfassen selbst einfache Mikrofone und Kameras jede noch so feine Nuance eines Klangs und jeden noch so flüchtigen Gesichtsausdruck – mit einer Präzision, die die Fähigkeiten unserer Sinnesorgane übersteigt.

Solche Technologien bergen eine Vielzahl möglicher Anwendungen: So können sie eingesetzt werden, um einen intuitiven Umgang mit Robotern und Computern zu ermöglichen. Zudem haben Unternehmen großes Interesse daran, damit Marktforschung zu betreiben und herauszufinden, was die Kunden wirklich interessiert. Eine weitere Anwendung bieten nahezu unfehlbare Lügendetektoren. Und schon jetzt ist es Berichten zufolge in Callcentern gang und gäbe, Kundengespräche automatisch auf ihren emotionalen Gehalt hin zu analysieren – was allerdings datenschutzrechtliche Probleme mit sich bringt.

Der Versuch, mit maschinellem Lernen unsere Gemütszustände zu ergründen, wird als »Affective Computing« bezeichnet. Die Programme stützen sich dabei oft auf stark vereinfachte Konzepte aus der Psychologie. So unterscheidet etwa das 1988 von den Psychologen Andrew Ortony, Gerald Clore und Allan Collins formulierte OCC-Modell zwischen 22 emotionalen Kategorien, von Freude über Stolz bis hin zu Liebe und Hass. Der Psychologe Albert Mehrabian wiederum hat bereits in den 1960er Jahren festgestellt, dass die Mimik die Wirkung einer Mitteilung wesentlich stärker beeinflussen kann als die Wortwahl. Und das »Big-Five-Modell« von Paul Costa und Robert McCrae unterscheidet zwischen fünf Persönlichkeiten, von gewissenhaft bis neurotisch.

»Für Computerwissenschaftler wie mich ist so eine kognitive Sicht auf Emotionen toll«, sagt der Informatiker Patrick Gebhard, der am Deutschen Forschungszentrum für Künstliche Intelligenz die Gruppe für »Affective Computing« leitet. Gebhard hat die genannten psychologischen Modelle bereits 2007 im Rahmen seiner Dissertation in sein Computermodell ALMA (»A Layered Model of Affect«) einfließen lassen, um das Verhalten virtueller Figuren plausibel darzustellen. ALMA kombiniert 24 Emotionen, acht Stimmungen sowie fünf verschiedene Persönlichkeitstypen und ist damit in der Lage, unterschiedliche Situationen zu bewerten und das Verhalten einer simulierten Figur darauf einzustellen. So wirkt es realistischer, wenn die Figur eine eigene Persönlichkeit zum Ausdruck bringen und Emotionen zeigen soll.

Menschliche Emotionen sind komplexer als einfache Modelle

Doch als es um das automatische Erkennen menschlicher Emotionen ging, kamen bei Gebhard und seinen Kollegen Zweifel auf. »Emotionen sind ein komplexes Konstrukt«, gibt er zu bedenken. »Nicht jedes Mal, wenn ich lächle, bin ich auch glücklich.« So lässt sich aus dem Klang der Stimme zwar eine freudige Aufregung von einer eher ruhigen Trauer unterscheiden. Bei der Unterscheidung von Freude und Ärger, die beide mit einem hohen Maß an Erregung einhergehen, können aber meist nur zusätzliche Informationen aus der Mimik helfen. »Die innen liegenden Emotionen lassen sich aus solchen oberflächlichen Signalen aber nicht zuverlässig ermitteln«, sagt Gebhard.

»Das war der Punkt, an dem uns klar geworden ist: So geht das nicht«Patrick Gebhard, Informatiker

Davon wurden der Forscher und sein Team Zeuge, als sie im Rahmen eines Projekts einen herben Rückschlag erlebten. Sie wollten mit Hilfe einfühlsamer virtueller Figuren Bewerbungsgespräche simulieren, um damit junge Menschen aus schwierigen sozialen Verhältnissen auf die Jobsuche vorzubereiten. »Da saß ein junger Mann, der auf der Straße lebte, und das System forderte ihn auf, über seine Schwächen zu sprechen«, erzählt Gebhard. In dem Moment sei der Mann vor dem Monitor zunächst eingefroren und habe gleich darauf den Bildschirm aus dem Fenster geworfen. »Das war der Punkt, an dem uns klar wurde: So geht das nicht.« Das System hat in diesem Fall also nicht einfühlsam reagiert, sondern den jungen Mann mit der Frage überfordert. »Eine emotionale Überforderung zu erkennen und die Aufgabe entsprechend anzupassen, ist aber die zentrale Herausforderung solcher sozial interaktiver Trainingssysteme.«

Statt aus Mustern in Stimme und Gesicht unmittelbar auf die momentane Gefühlslage zu schließen, wählten Gebhard und seine Kollegen daraufhin einen umfassenderen Zugang. In einem weiteren Computermodell, das auf ALMA aufbaut, versuchen sie nach wie vor, die nach außen kommunizierten Emotionen auf Musterebene zu erkennen. »Anstatt aus diesen Signalen direkt eine Emotion abzuleiten, simuliert das System jedoch zunächst die möglichen internen Erlebniswelten der Person und wählt die wahrscheinlichste davon aus«, erklärt Gebhard. Dabei werden auch Regulationsprozesse berücksichtigt, denn schließlich legen vor allem Erwachsene größten Wert darauf, in sozialen Interaktionen ihre wahren Gefühle zu verbergen – vor allem, wenn sie negativ behaftet sind. So überdecken viele Menschen Emotionen wie Scham mit Freude, um damit eine unangenehme Situation zu kontrollieren.

Das System versucht derartige Reaktionen an Signalen wie Blickwechseln, Kopfkratzen oder Augenreiben zu erkennen, um dann zusammen mit weiteren Informationen zum Kontext auf das innere Erleben zu schließen. Um das ermittelte Ergebnis zu bestätigen, müsste künftig ein sozial interaktiver virtueller Agent in einen Dialog treten. »Wir Menschen machen das ja auch so«, sagt der Forscher. »Wir wissen meist nicht auf Anhieb, wie es unserem Gegenüber geht, sondern wir beobachten und passen uns dynamisch an die Situation an.« Mit ihrem aktuellen System geht es den Fachleuten darum, Menschen bei der Bewältigung schwieriger sozialer Situationen zu helfen: von Bewerbungsgesprächen über soziale Konflikte im Klassenraum bis hin zur Unterstützung in der Burnout-Therapie.

Eine Stimme sagt mehr als 1000 Worte

Das Ergründen komplexer Emotionen einzelner Menschen mag Maschinen noch überfordern. Wenn es jedoch darum geht, einfache Fragen zu großen Datenmengen statistisch zu beantworten, können sie ihre Stärken voll ausschöpfen – und kommen mitunter zu erstaunlichen Ergebnissen.

So hat ein Team der Ruhr-Universität Bochum ein KI-System mit 8000 Stimmproben von Führungskräften gefüttert und wollte herausfinden: Wird sich das zugehörige Unternehmen in Zukunft positiv oder negativ entwickeln? Die Sprachproben waren öffentlich zugänglich und stammten von den Bilanzpressekonferenzen, bei denen CEOs die Fragen von Journalistinnen und Analysten zur aktuellen Leistung ihres Unternehmens beantworteten. »Unsere Annahme war, dass Manager in einer solchen Situation dazu neigen, gewisse Informationen zurückzuhalten«, sagt Charlotte Knickrehm, die an der Studie beteiligt war. »Und dass sich das irgendwie im Klang der Stimme niederschlagen müsste.«

Sprachbildung ist einer der komplexesten und gleichzeitig sensibelsten Prozesse, zu denen Menschen fähig sind. Niemand hat eine 100-prozentige Kontrolle darüber, welche Emotionen dabei sichtbar werden. »Wir Menschen erkennen an der Stimme meist recht schnell, wenn eine uns vertraute Person traurig ist«, erklärt die Forscherin. »Und maschinelles Lernen ist nun einmal sehr gut dafür geeignet, solche subtilen Muster in Daten zu erfassen.« Bisher sind nur wenige Merkmale bekannt, die Klangmuster in Stimmen mit bestimmten Emotionen in Verbindung bringen. Zudem gibt es in der computergestützten Analyse bislang keine einheitliche Meinung dazu, wie genau sich Emotionen in der Stimme niederschlagen. Doch davon ließen sich die Fachleute nicht entmutigen.

»Unsere KI hat gelernt, aus einer kurzen Stimmprobe vorherzusagen, ob ein Unternehmen Gewinn oder Verlust machen wird«Charlotte Knickrehm, Wirtschaftsinformatikerin

In ihrer Analyse berücksichtigten sie nicht einmal den Inhalt der gesprochenen Worte. Die Aufbereitung der Daten bestand lediglich darin, einen geeigneten Zeitpunkt in den Audioaufnahmen zu wählen und jeweils einen einminütigen Ausschnitt herauszuschneiden. »Alle Sprachproben stammen aus dem Frage- und Antwortteil der Pressekonferenzen, weil die CEOs dann relativ freiheraus sprechen müssen und weniger Möglichkeiten haben, ihre Emotionen zu kontrollieren«, erläutert Knickrehm.

Die Sprachproben übergaben die Forscherinnen und Forscher einem künstlichen neuronalen Netz in bildlicher Darstellung (in Form von Spektrogrammen) und trainierten es auf die Vorhersage der im Nachhinein bekannten Entwicklung der jeweiligen Unternehmen. »So hat unsere KI gelernt, aus einer kurzen Stimmprobe vorherzusagen, ob ein Unternehmen im Folgejahr Gewinn oder Verlust machen wird«, so Knickrehm. »Das Programm konnte das um neun Prozentpunkte besser als herkömmliche Modelle, die lediglich auf veröffentlichten Geschäftszahlen beruhen.« Dabei handelt es sich jedoch um einen statistischen Mittelwert: Nicht mit jeder einzelnen Sprachprobe lässt sich die Zukunft mit der gleichen Zuverlässigkeit vorhersagen. »Aber solange es Muster gibt, die in der Mehrheit der Fälle auftreten, finden wir auch etwas.«

Von der Augenbewegung zur Persönlichkeit

Mit einer ähnlichen Methode sind andere Wissenschaftler bereits 2019 auf einen weiteren interessanten Zusammenhang gestoßen. Sie haben nicht Stimmen auf flüchtige Emotionen hin untersucht, sondern Persönlichkeitsmerkmale mit Augenbewegungen in Verbindung gesetzt. »In der Psychologie ist bekannt, dass verschiedene Persönlichkeitsmerkmale mit dem Augenbewegungsverhalten zusammenhängen«, erklärt der Informatiker Andreas Bulling von der Universität Stuttgart, der die Studie geleitet hat. »Uns ist erstmals der Nachweis in die umgekehrte Richtung gelungen.«

Dazu ließen Bulling und sein Team verschiedene Personen zunächst Standardfragebogen zu deren Persönlichkeit ausfüllen und schickten sie anschließend mit Eye-Tracking-Brillen ausgestattet zum Einkaufen. Die Brillen zeichneten die charakteristischen Augenbewegungen der Probanden auf, die anschließend in ein KI-System flossen.

Nach dem Training war die KI in der Lage, die Persönlichkeit eines Menschen anhand seiner Augenbewegung vorherzusagen. Die richtigen Einschätzungen lagen dabei deutlich über der Zufallsgrenze. Für echte Anwendungen, etwa in der Marktforschung, sei die Trefferquote allerdings zu gering, räumt Bulling ein. »Die Augen sind bloß ein Baustein von vielen«, sagt er. »Dennoch ist es uns gelungen, nur aus ihrer Bewegung Charaktereigenschaften vorherzusagen.«

»Die Probanden sind oft verblüfft, wenn wir sie darauf ansprechen, ob sie gerade aufgehört haben, sich zu konzentrieren«Nina Holzer, Informatikerin

Auch in der Arbeit von Nina Holzer am Fraunhofer-Institut für Integrierte Schaltungen spielen Augenbewegungen eine wichtige Rolle. Die Forscherin leitet dort die Gruppe für Multimodal Human Sensing: Sie erfasst mit einer ganzen Reihe von Sensoren die psychophysiologischen Signale ihrer Probanden, um daraus Rückschlüsse auf deren aktuelle Gemütslage zu ziehen. »Aus der Größe der Pupillen können wir zum Beispiel recht zuverlässig das Maß an Aufmerksamkeit ableiten oder ob jemand gerade nachdenkt«, sagt Holzer. Während jemand komplizierte Rechenaufgaben löst, vergrößert sich die Pupille und schrumpft sofort wieder, sobald die Person aufgehört hat nachzudenken. »Die Probanden sind dann oft verblüfft, wenn wir sie darauf ansprechen, ob sie etwa gerade aufgehört haben, sich zu konzentrieren.«

Obwohl Holzers Gruppe viel Grundlagenforschung zu Affective Computing betreibt, haben die Forscher mit ihren Methoden zur Marktforschung auch bereits den kommerziellen Bereich erreicht. »Inzwischen wollen Unternehmen etwa von uns wissen, welche Produkte bei ihren Kunden am besten ankommen«, sagt Holzer. Dafür setzen sie und ihr Team auf die umfangreiche Sensorik ihrer so genannten AI-Box. In diesem abgeschlossenen Raum können sie ihre Testpersonen verkabeln und neben den Augenbewegungen noch weitere Biosignale wie Atmung oder Puls messen. Fingerclips erfassen die Sauerstoffsättigung des Bluts; Hauben mit Elektroden am Kopf analysieren die Aktivität des Gehirns, um ein Elektroenzephalogramm (EEG) zu erstellen. »Aus einem EEG lässt sich einerseits gut ableiten, ob etwas als angenehm oder eher unangenehm empfunden wird, und andererseits, ob ein Proband gerade ruhig oder aufgeregt ist«, erklärt Holzer. Auch die Aktivität des Verdauungstrakts, gemessen über einen Bauchgurt, ist für die Fachleute interessant. »Das gibt oft Aufschlüsse über emotionale Reaktionen, weil es vom Gehirn eine gute Verbindung dorthin gibt.«

»Mit den Technologien lässt sich genau feststellen, an welcher Stelle ein Kunde das Interesse verloren hat«Nina Holzer, Informatikerin

Sind die Freiwilligen an das System angeschlossen, werden ihnen Produkte oder Werbespots präsentiert, die sie bewerten sollen. »Gerade bei Werbeclips ist es mit Fragebogen häufig schwierig festzustellen, welche Szene für eine positive oder negative Bewertung eines Produkts ausschlaggebend war«, sagt Holzer. »Mit den Technologien, die wir anwenden, lässt sich dagegen genau erkennen, an welcher Stelle ein Kunde zum Beispiel das Interesse verloren hat.«

Außerdem brächten Fragebogen nicht immer objektive Bewertungen. So würden Menschen oft nicht ehrlich antworten, etwa wenn es um Fragen dazu geht, wie gut sie mit einem technischen Gerät zurechtgekommen sind. »Da stehen meist gesellschaftliche Erwartungen im Raum, und eine Testperson will dann vielleicht einfach nicht zugeben, dass sie mit der Navigation durch die Website eines Onlineshops Probleme hatte«, so die Informatikerin.

Der gläserne Mensch

Allerdings birgt das Erfassen persönlicher Biosignale auch Risiken für die Privatsphäre. Zwar unterwirft die Datenschutz-Grundverordnung (DSGVO) biometrische Daten – ähnlich wie Gesundheitsdaten oder Daten zu sexueller Orientierung, Religion und ethnischer Herkunft – strengen Regeln und verbietet ihre Verarbeitung. Die Definition biometrischer Daten ist aber recht eng: Sie umfasst lediglich solche Informationen, die zur eindeutigen Identifizierung einer Person dienen können, wie Gesicht oder Fingerabdruck. Daten hingegen, die eher Aufschluss über die Eigenschaften von Menschen geben als über ihre Identität, werden von der DSGVO bisher nicht abgedeckt.

Dafür hat die Europäische Union 2023 mit dem »AI Act« einen Legislativvorschlag auf den Weg gebracht, der konkret auf die Regulierung von künstlicher Intelligenz abzielt. Er unterwirft dabei unter anderem Anwendungen zur Emotionserkennung strengen Anforderungen. So soll die Technik am Arbeitsplatz verboten werden, was damit wohl auch die eingangs erwähnten Callcenter beträfe. Denn die Systeme untersuchen nicht nur die Kunden, sondern auch die Antworten der Mitarbeitenden. Laut AI Act müssen Betroffene außerdem klar informiert werden, wenn ein System zur Emotionserkennung eingesetzt wird.

»Da können wir uns in Forschung und Entwicklung in Nachteile hineinmanövrieren«Nina Holzer, Informatikerin

»Gesetzlich verpflichtende Datenschutzkonzepte sind wichtig. Vor allem müssen Nutzer immer genau wissen, was mit ihren Daten passiert«, sagt Holzer. »Da kann man sich viele problematische Szenarien ausdenken, die Menschen schaden könnten.« So ließe sich aus physiologischen Daten unter Umständen der Gesundheitszustand nachvollziehen. Und würden solche Informationen in die falschen Hände gelangen, könnte das etwa bei der Jobsuche Schwierigkeiten bereiten oder man könnte von einer Krankenkasse abgelehnt werden.

»Allerdings ist der Datenschutz in den USA zum Beispiel viel weniger streng als in Europa«, gibt die Forscherin zu bedenken. So unterliegen etwa europäische Emotionsdatenbanken, die dem Training neuer KI-Systeme dienen, schon heute strengeren Auflagen als US-amerikanische. Daten zu Emotionen, wie sie das Fraunhofer-Institut gewinnt, dürfen dort nur unter strengen Voraussetzungen veröffentlicht werden, was die Entwicklung neuer KI-Systeme erschwert. »Da können wir uns in Forschung und Entwicklung schon auch in Nachteile hineinmanövrieren«, vermutet Holzer.

  • Quellen

Ewertz, J. et al.: Listen closely: Using vocal cues to predict future earnings. SSRN 4307178, 2023

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.