Um einem Computer das Sprechen beizubringen, lässt man ihn heutzutage gewaltige Textmengen durchforsten, Zeitungsarchive, Websites oder digitale Bibliotheken zum Beispiel. Das funktioniert ganz gut: Die künstliche Intelligenz (KI) ermittelt etwa statistische Regelmäßigkeiten wie die Häufigkeit bestimmter Wortkombinationen, und am Ende hat das System mehr oder weniger anwendbares Deutsch aufgeschnappt – und, wie sich zeigt, eine ganze Menge Vorurteile.

Denn diese stecken unweigerlich in den Trainingsdaten drin, wenn auch häufig wenig offensichtlich. Die Diskussion darum, wie die Forschung mit dieser Tatsache umgehen soll, nimmt gerade an Fahrt auf und hat nun durch eine aktuelle Studie im Magazin "Science" neue Nahrung bekommen: Forscher um die Informatikerin Aylin Caliskan von der Princeton University zeigen darin, dass entsprechende Algorithmen die gleichen impliziten rassistischen und sexistischen Stereotypen reproduzieren wie Menschen.

Um das nachzuweisen, haben Caliskan und Kollegen ein Verfahren abgewandelt, das seit Längerem in der psychologischen Forschung zum Einsatz kommt. Es soll gerade solche Vorurteile und Wertvorstellungen zum Vorschein bringen, die Menschen in Fragebögen ungerne zugeben.

Bei diesem Implicit Associations Test (IAT) messen Forscher die Reaktionszeit, die ein Mensch benötigt, um zwei Begriffe miteinander in Verbindung zu bringen. Kommen dem Probanden die hinter den Ausdrücken stehenden Konzepte semantisch ähnlich vor, ist seine Reaktionszeit kürzer, als wenn die Konzepte einander zu widersprechen scheinen. Beispielsweise zeigt der Test, dass die meisten Menschen die Namen von Blumen schneller mit Worten wie "schön" oder "hübsch" assoziieren und die Namen von Insekten schneller mit negativen Begriffen.

Mit dem bereits 1998 entwickelten Verfahren lockt man nach Meinung seiner Verfechter verborgene Ansichten ans Tageslicht, weil es schwer, wenn nicht gar unmöglich sei, "politisch korrekt" zu reagieren. Die Reaktionszeit lässt sich willentlich kaum beeinflussen.

In ihrer Abwandlung des IAT ermittelten Caliskan und Kollegen allerdings nicht die Reaktionszeit ihrer KI. Sie machten sich den Aufbau des erlernten Wissensspeichers zu Nutze: In einem Fall ließen sie den Computer mit Hilfe des so genannten "Word-to-Vec"-Verfahrens lernen, das Wörter als Vektoren darstellt, abhängig davon, welche anderen Wörter in ihrem Umfeld häufig auftauchen. Auch hier lernte die KI selbstständig, welche Begriffe zusammengehören. Das Lehrmaterial bildete eine der größten computerlinguistischen Datensammlungen der Welt, das "common crawl corpus" mit 840 Milliarden Wörtern aus dem englischsprachigen Internet.

Männer für Mathe, Frauen für Kunst?

Anschließend ermittelten die Forscher die Distanz zwischen zwei Paaren von Vektoren, sie diente ihnen als analoge Maßeinheit zur Reaktionszeit der Menschen im IAT-Test. Dabei fand das Team unter anderem heraus, dass die künstliche Intelligenz Blumen ebenso wie europäisch-amerikanische Vornamen mit positiven Begriffen assoziierte, wohingegen Insekten sowie afroamerikanische Namen mit negativen Begriffen verbunden wurden. Männliche Namen standen semantisch näher an Karrierebegriffen, weibliche Namen hingegen wurden eher mit Familie assoziiert, Mathematik und Wissenschaft mehr mit Männern, Kunst mehr mit Frauen, die Namen junger Menschen wurden eher mit angenehmen, die Namen von älteren eher mit unangenehmen Dingen in Verbindung gebracht.

"Stecken wir Vorurteile rein, kommen Vorurteile raus" (Margaret Mitchell)

"Mann verhält sich zu Programmierer wie Frau zu Hausfrau" – so fassten schon Mitte 2016 Forscher der Boston University und von Microsoft Research im Titel einer ganz ähnlichen Veröffentlichung das Phänomen zusammen. Wenn die Bedeutung von Begriffen allein anhand statistischer Methoden definiert wird, spiegeln die Vektoren der Informatiker das Weltwissen in unseren Köpfen. Vorurteile und Klischees inbegriffen.

Letztlich sei das Ergebnis nicht weiter verwunderlich, gibt Joanna Bryson von der Princeton University, Mitautorin des aktuellen "Science"-Artikels, zu: "Die Verzerrung in den Daten ist historisch bedingt, das ist unsere Kultur." Zudem zeigten die Assoziationen sowohl von Mensch als auch von Maschine nicht nur Vorurteile, sondern auch menschliche Wertungen, die sich über viele Jahrtausende gefestigt haben und nun der Wahrnehmung selbst ihren Stempel aufdrücken – beispielsweise dass wir Blumen als schön empfinden. "Daran ist ja nichts Negatives." Aber sie zeigen eben auch tief verwurzelte Vorurteile, die offenbar über die Sprache transportiert werden und so unbewusst auf uns einzuwirken scheinen. Das Ergebnis liefert damit der alten Ansicht neue Argumente, dass unser Denken und unsere Weltsicht maßgeblich durch unsere Muttersprache beeinflusst werden.

Statistisch Vorurteile lernen kann auch der Mensch

Einen weniger augenfälligen Aspekt ihrer Studie findet Bryson allerdings viel beeindruckender: Die Analogie zwischen menschlichem Lernen und Algorithmus könnte noch tiefer reichen. Auch wir erfassen womöglich die Bedeutung eines Wortes vor allem dadurch, wie es benutzt wird. So hört man beispielsweise häufig: "Ich muss nach Hause meine Katze füttern." Oder: "Ich muss nach Hause meinen Hund füttern." Aber nie: "Ich muss nach Hause meinen Kühlschrank füttern." Ein Algorithmus lernt daraus, dass Hund und Katze ähnliche Konzepte sind, Kühlschrank hingegen ein ganz anderes. "Und vermutlich lernen auch Kinder so", sagt Bryson. Nur indem sie ein Wort in vielen verschiedenen Kontexten benutzen und hören, könnten Kinder lernen, welche Bedeutung damit verknüpft ist.

Auch für die Roboterforschung habe die aktuelle Studie deshalb eine große Bedeutung, so Bryson. Schließlich sei lange argumentiert worden, dass Roboter einen Körper brauchen, um die Welt wirklich zu verstehen: "Es hieß: Du kannst keine Semantik bekommen, ohne die echte Welt zu fühlen." Sie sei selbst eine Anhängerin dieser These gewesen. "Aber das ist nicht nötig, wie unsere Studie zeigt." Denn ganz offensichtlich reiche zum Beispiel allein das Lesen des Internets, um zu dem Ergebnis gelangen, dass Insekten unangenehm und Blumen angenehm sind – selbst wenn der Computer nie an einer Blüte geschnuppert oder von Moskitos gestochen wurde.

Doch unabhängig davon stehen angesichts der beiden Studien alle KI-Verfahren auf dem Prüfstand, die auf der Grundlage von Trainingsdaten eigenständig lernen. Was es heißt, wenn der Algorithmus Vorurteile übernimmt und zementiert, spürten kürzlich schwarze Strafgefangene in den USA, für die ein Computer eine längere Haftzeit vorgeschlagen hatte als für weiße Kriminelle: Er hatte aus den bisherigen menschlichen Entscheidungen gelernt und die Vorurteile der Richter übernommen. Eigentlich ist es ganz einfach, sagt Margaret Mitchell von Google Research in Seattle: "Stecken wir Vorurteile rein, kommen Vorurteile raus." Diese seien allerdings kaum offensichtlich, weshalb sie häufig nicht bemerkt werden. "Wir haben heute dank der Deep-Learning-Revolution mächtige Technologien", sagt Mitchell – und damit stellen sich neue Fragen, denn langsam wird klar, welchen Einfluss das maschinelle Lernen auf die Gesellschaft haben kann. "Solche Tendenzen in den Daten werden manchmal erst durch den Output der Systeme sichtbar", sagt die Forscherin. Aber das auch nur dann, wenn sich die Entwickler dem Problem bewusst sind, dass sie die Ergebnisse in Frage stellen müssen.

Ein Filter gegen Vorurteile

Noch gebe es keine technische Lösung, wie man jene Vorurteile in den Daten systematisch aufspüren kann, die zu Diskriminierung führen können, gibt Mitchell zu: "Damit müssen wir uns jetzt beschäftigen, denn diese Systeme sind die Grundlage für die Technologien der Zukunft." Sie nennt das die "Evolution der künstlichen Intelligenz". Gerade an der Schnittstelle zwischen Bild- und Texterkennung gibt es immer wieder Pannen: Kürzlich hatte eine Google-Software das Foto zweier Dunkelhäutiger mit der Unterschrift "Gorillas" versehen. Peinlich genug für den Konzern, um sich nun verstärkt auch dieser Ebene des maschinellen Lernens zu widmen.

"Sogar Systeme, die auf 'Google-News'-Artikeln (also Zeitungsartikeln; Anm. d. Autorin) trainiert sind, zeigen Geschlechterstereotype in einem störenden Ausmaß", schreiben die Autoren um Tolga Bolukbasi von der Boston University im oben genannten Artikel. Sie schlagen vor, die Modelle zu "ent-biasen", also die Tendenzen und Vorurteile aus den Trainingsdaten zu entfernen. Joanna Bryson findet das falsch: "Es wird kaum möglich sein, jedes Vorurteil aus den Daten zu nehmen." Schließlich seien die wenigsten so offensichtlich wie Rassismus und Geschlechterstereotypen.

Besser ist aus ihrer Sicht, die Systeme nach dem Trainieren mit einer Art Filter auszustatten: mit programmierten Regeln, die ausschließen, dass implizite Vorurteile in Entscheidungen oder Handlungen einfließen. Ganz ähnlich eigentlich wie Menschen, die auch nicht jedes Vorurteil in eine Handlung umsetzen – womöglich ganz bewusst, weil sie eine gerechtere Welt im Auge haben. "Die Gesellschaft kann sich ändern", sagt Bryson. Aber nicht, wenn uns die künstliche Intelligenz auf der Basis auf Daten der Vergangenheit für immer auf einem rassistischen und sexistischen Stand hält.



Interview: "Fehler haben Konsequenzen für das Leben echter Menschen"

Hanna Wallach von Microsoft Research erklärt im Interview, wieso Maschinen rassistische Entscheidungen treffen und warum es wichtig ist, sich diesem Thema zu widmen.

Hanna Wallach
© Mit frdl. Gen. von Hanna Wallach
(Ausschnitt)
 Bild vergrößernHanna Wallach

Frau Wallach, Sie verfassen Debattenbeiträge für Forscher und organisieren Workshops zum Thema Ethik in der maschinellen Sprachverarbeitung. Wie kamen Sie auf die Idee?

Wallach: Ich beschäftige mich schon länger mit Ethik im maschinellen Lernen: Wie kann die Technologie fair, transparent und zuverlässig sein? Im vergangenen Jahr hat dann der Computerlinguist Dirk Hovy ein Thesenpapier vorgestellt, in dem er darauf hinweist, dass die maschinelle Sprachverarbeitung einen starken gesellschaftlichen Einfluss hat und damit auch eine Verantwortung. Einige der Probleme kamen mir aus dem maschinellen Lernen allgemein bekannt vor, und so wuchs das Interesse, gemeinsam an dem Thema zu arbeiten.

Was sind die größten ethischen Probleme aus Ihrer Sicht?

Datengetriebene maschinelle Sprachverarbeitung reproduziert automatisch alle Tendenzen, die in den Daten vorhanden sind, beispielsweise sexistische oder rassistische Vorurteile. So konnten Forscher zeigen, dass Sprachsysteme, die auf der Grundlage von Zeitungsartikeln trainiert wurden, Geschlechtsstereotypen verstärken: Sie erkennen einen starken Zusammenhang zwischen den Worten Krankenschwester/Krankenpfleger (im Englischen ist der Begriff "nurse" geschlechtsneutral; Anm. d. Autorin) und Frau.

Liegt das nicht daran, dass die Gesellschaft diesen Beruf ebenfalls vor allem mit Frauen verknüpft?

Genau, wir leben bereits in einer Gesellschaft mit Vorurteilen. Maschinen, die von uns lernen, reproduzieren das automatisch. Und sie verstärken sie, beispielsweise treffen Maschinen immer häufiger bei Bewerbungen eine Vorauswahl. Wir müssen sicherstellen, dass sie nicht auf der Grundlage solcher Verzerrungen in den Daten bestimmte Bewerbergruppen aussortieren.

Dass nicht alle Männer automatisch aussortiert werden, wenn Krankenschwestern oder Erzieher gesucht werden? Dabei wird uns doch immer wieder versprochen, dass Computer objektiv urteilen und eben nicht Bewerber ablehnen, weil ihnen die Nase nicht gefällt …

Das funktioniert aber nicht. Stellen Sie sich beispielsweise dieses Unternehmen vor, das ein automatisches Verfahren anwenden will, um zu entscheiden, welche Bewerber zum Vorstellungsgespräch eingeladen werden sollen. Welche Beispiele soll es dem Computer geben, um zu lernen, wie man solche Entscheidungen trifft? Es trainiert sein System mit den bisherigen Entscheidungen der Personalabteilung, und dieses findet beispielsweise vor allem weiße Männer mit hohen Bildungsabschlüssen in der Belegschaft. Andere Bewerber mögen ebenso gut geeignet sein, aber das System wird sie künftig aussortieren, weil es historische Vorurteile reproduziert.

Nicht immer sind diese versteckten Vorurteile so offensichtlich. Gibt es Verfahren, um diese verfälschten Daten zu finden oder sicherzustellen, dass ein solches System nicht auf Grundlage von Vorurteilen lernt?

Das ist schwierig. Ein erster wichtiger Schritt ist es, die Fehleranalyse ernst zu nehmen. Wenn Datenpunkte Menschen sind, bekommt diese Analyse ein viel größeres Gewicht, denn die Fehler haben Konsequenzen für das Leben echter Menschen. Es genügt nicht zu wissen, dass ein Modell zu 95 Prozent genau ist. Wir müssen wissen, wer von dieser Ungenauigkeit betroffen ist. Es ist ein großer Unterschied zwischen einem Modell, das für alle Bevölkerungsgruppen 95 Prozent genau ist, und einem, das zu 100 Prozent genau ist für weiße Männer, aber nur zu 50 Prozent, wenn es um Frauen oder Minderheiten geht.

Mir hat einmal ein Google-Vertreter gesagt, dass sie keine Ahnung hätten, wie sie ethisch korrekte Algorithmen programmieren sollen. Nehmen die großen Unternehmen das Thema ernst genug?

Ja, aktuell diskutieren alle großen Tech-Unternehmen diese Themen. Natürlich ist es alles andere als ein gelöstes Problem, aber sehr viele schlaue Menschen beschäftigen sich damit und nehmen es sehr ernst. Das ist ein großartiger erster Schritt.