Mäders Moralfragen: Computer lesen auch zwischen den Zeilen

Die maschinelle Sprachverarbeitung ist ein mächtiges Werkzeug - nicht zuletzt für Zensurbehörden. Doch Sprachwissenschaftler programmieren auch Schutzmaßnahmen. Sie spielen also zugleich Katz und Maus.

von Alexander Mäder

Sprachaufzeichnung — © mrtom-uk / Getty Images / iStock (Ausschnitt)

Werden die Fähigkeiten der maschinellen Sprachverarbeitung in der Öffentlichkeit über- oder unterschätzt? »Unterschätzt«, antwortet Michael Strube wie aus der Pistole geschossen. Wenn sich die Menschen Echo, Google Home oder HomePod ins Wohnzimmer stellen, ahnen sie nicht, wie gut der Computer sie schon versteht – und was er mit ihren Daten alles anstellen kann. Strube ist Computerlinguist am Heidelberger Institut für Theoretische Studien; er leitet dort eine Forschergruppe zum Natural Language Processing (NLP) und ist derzeit auch Sprecher der Einrichtung. Anfang Juni 2018 war er in den USA, weil er dort einen Workshop zu ethischen Fragen seines Fachs mitorganisierte; es war der zweite Workshop dieser Art.

Ein Beispiel für fragwürdige Sprachanalysen ist das Profiling: Aus einer Reihe von Tweets können Sprachwissenschaftler nicht nur Alter und Geschlecht des Autors ableiten, sondern auch Rasse, Einkommen und politische Einstellung. Der Computer liege mit seinen Analysen ziemlich oft richtig, sagt Strube. Mit solchen Verfahren lässt sich Werbung personalisieren, aber sie könnten auch den Ermittlungs- und Zensurbehörden autokratischer Staaten helfen.

Seit Edward Snowden vor mehr als fünf Jahren mit seinem Wissen über die Nachrichtendienste an die Öffentlichkeit ging, gibt Strube Seminare zu ethischen Fragen des NLP und hält Vorträge darüber. Viele seiner Kollegen reize zwar nur die wissenschaftliche Herausforderung, und sie würden sich nicht dafür interessieren, ob und wie ihre Arbeit missbraucht werden kann, sagt er. Doch das ändere sich: »Die Community beginnt das Problem wahrzunehmen.«

Den Spieß einmal umdrehen

Strube und seine Kollegen fragen sich nicht bloß, welche Forschungsprojekte sinnvoll und welche Geldgeber vertrauenswürdig sind. Sie beginnen vielmehr zu untersuchen, wie sie Menschen vor der missbräuchlichen Datenanalyse schützen können. Die Computerlinguistik macht also die maschinelle Sprachanalyse möglich, stellt zudem aber Gegenmaßnahmen bereit – wenn auch längst noch nicht im gleichen Umfang. Sie kann zum Beispiel dabei helfen, die Tweets so umzuformulieren, dass sie weniger über den Autor preisgeben. Vor einigen Jahren wurde zu diesem Zweck das Programm »Anonymouth« veröffentlicht: Es schlägt dem Autor beispielsweise vor, verräterische Wörter zu streichen.

2016 sind Sravana Reddy und Kevin Knight aus den USA einen Schritt weitergegangen. In einem Fachartikel präsentierten sie eine Methode zur automatisierten Verschleierung der Person. Sie wollten Algorithmen täuschen, die das Geschlecht des Autors anhand der Häufigkeit der verwendeten Begriffe ermitteln. Für Männer waren auf Twitter zum Beispiel typisch: bro, game, team, steady, drinking, dude, LOL. Für Frauen: my, you, love, OMG, boyfriend, miss, hair. (Für die Klischees, die hier zu Tage treten, können die Forscher nichts.)

Indem der Algorithmus von Reddy und Knight Wörter austauschte, machte er etwa aus dem Satz »all my niggas look rich as fuck«, der eher mit Männern in Verbindung gebracht wird, das weiblichere »all my bitchess look rich as eff«. Der modifizierte Satz hat zwar nicht mehr ganz dieselbe Bedeutung; an der Technik muss also noch gefeilt werden. Immerhin ist es ein Ansatz, den man weiterentwickeln könnte.

Kein Geld von Google

Inzwischen arbeiten Reddy und Knight jedoch für Spotify und DiDi, das chinesische Uber. Unternehmen bieten spannende Arbeitsfelder für Computerlinguisten. Michael Strube will sich davon aber, soweit es geht, fernhalten. »Wenn ich von der Industrie Fördergelder annehme, weiß ich nicht, was sie mit meinen Ergebnissen machen«, sagt er. »Sie haben dann einen direkteren Zugriff darauf, als wenn sie nur meine Publikationen auswerten.« Doch man sei als Wissenschaftler nicht auf Google, Microsoft & Co angewiesen, versichert er.

Wie wäre es also mit einer Charta der digitalen Rechte? Strube hält es noch für zu früh, die Regeln gegen den Missbrauch von Forschungsergebnissen des NLP schriftlich festzuzurren. Aber er wünscht sich von den internationalen Fachverbänden Anhaltspunkte für seine Arbeit, etwa für seine Rolle als Gutachter und Programmchef einer Tagung. Vor einigen Jahren musste er zum Beispiel über eine fachlich gute, politisch allerdings heikle Studie entscheiden, erzählt er: Ein Team hatte ein Verfahren entwickelt, um automatisch zu erkennen, mit welchen Spitznamen chinesische Nutzer in sozialen Medien über ihre Politiker schreiben. Die Methode sei wissenschaftlich interessant, sagt Strube, doch als Anwendung komme nur die automatisierte Zensur in Betracht.

Den Artikel hat er damals veröffentlicht. »Mir ist es lieber, solche Verfahren werden veröffentlicht, als dass man sie geheim hält«, sagt er dazu. (Um die Frage, ob man brisante Forschungsergebnisse veröffentlichen sollte, ging es vor einiger Zeit auch in dieser Kolumne zur künstlichen Intelligenz.)

Die Moral von der Geschichte: Manchmal ist das beste Mittel gegen fragwürdige Forschung – noch mehr Forschung.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Artikel zum Thema

Neurolinguistik : Was beim Sprechen im Kopf passiert

Damit ein Gespräch wie von selbst läuft, muss das Gehirn blitzschnell reagieren – sonst sind Missverständnisse vorprogrammiert. Wie es das meistert, zeigen jetzt Hirnscans.

Computer : Künstliche Intelligenz mit handfesten Vorurteilen

Künstliche Intelligenz gilt als unbestechlich, emotionslos, objektiv. Doch wer genauer hinsieht, findet üble Vorurteile und rassistische Klischees. Von wem hat sie das nur gelernt?