Selbst die derzeit besten Sprach-KIs lassen sich offenbar in die Irre führen, einfach indem man in einem Satz ein oder zwei Wörter durch gleichbedeutende austauscht. Ein menschlicher Leser würde diese Manipulation nicht bemerken. Der Computer hingegen interpretiert den Satz plötzlich ganz anders als zuvor.

Ein solcher »Angriff« auf das KI-System funktioniert auch dann, wenn man nichts über die innere Funktionsweise der sprachverarbeitenden Software weiß. Darum könnte er theoretisch von Hackern ausgenutzt werden, um eine KI lahmzulegen. Als ähnlich angreifbar erwies sich bereits die Bildverarbeitung: Eine mit dem bloßen Auge nicht wahrnehmbare Manipulation einzelner Pixel führt dazu, dass der Computer das Bild plötzlich völlig falsch analysiert.

Wie man die Textverarbeitung aushebelt, beschreiben Forscher um Di Jin vom Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT in einem Beitrag auf »arXiv«. Sie programmierten eine Software darauf, zunächst diejenigen Wörter im Satz zu identifizieren, die für die Interpretation am wichtigsten sind. Dazu fütterten sie den Satz wieder und wieder derselben KI, ließen aber immer einzelne Wörter aus. Die Bestandteile, bei denen sich das ausgegebene Ergebnis am stärksten änderte, wurden im nächsten Schritt durch Synonyme ersetzt. Dabei probierte der Computer alle möglichen Alternativkandidaten durch, bis er einen fand, der die ursprüngliche KI zum Stolpern brachte.

Die Forscher testeten ihr Verfahren an mehreren aktuellen Sprach-KIs, darunter das von Google entwickelte System BERT: Dies revolutionierte im Jahr 2018 das Feld und bildet seitdem die Basis zahlreicher experimenteller Programme für maschinelle Sprachverarbeitung. Die TextFooler genannte und frei verfügbare Software bietet allerdings auch die Chance, die nächste Generation von Sprach-KIs zu verbessern – das Lernverfahren müsste dazu um einen Schritt erweitert werden, der die Empfindlichkeit gegenüber einer solchen Attacke mit Synonymen verringert.