Direkt zum Inhalt

Mensch vs. KI: Sprachmodelle scheitern an Test zur selektiven Aufmerksamkeit

Ein psychologischer Test legt eine zentrale Schwäche von KI offen: Sie versagt in kluger Impulskontrolle und halluziniert.
Zwei stilisierte menschliche Profile, die sich gegenüberstehen, bestehen aus bunten Buchstaben und Zahlen. Die Buchstaben sind in verschiedenen Größen und Farben angeordnet, um die Gesichter zu formen. Das Bild symbolisiert Kommunikation und den Austausch von Ideen durch Sprache und Schrift. Der Hintergrund ist neutral gehalten, um den Fokus auf die farbenfrohen Buchstaben zu lenken.
Die Aufmerksamkeitsmechanismen moderner Sprachmodelle stoßen an Grenzen, sobald die Anforderungen steigen.

Trotz ihrer in vielen Bereichen beeindruckenden Leistungen scheitern Sprachmodelle offenbar an einer Aufgabe, die seit Jahrzehnten zum psychologischen Standardrepertoire gehört: dem Stroop-Test. Dabei soll ein Proband sagen, in welcher Farbe ein Wort geschrieben ist. Es handelt sich jedoch nicht um irgendwelche Wörter, sondern um die Namen von Farben. Wenn Wortfarbe und Farbwort übereinstimmen, ist das ganz leicht. Wenn dem aber nicht so ist, fängt das menschliche Gehirn an zu stolpern. Der Test aus der Kognitionspsychologie misst die selektive Aufmerksamkeit, die kognitive Flexibilität und die Fähigkeit, ablenkende Reize zu unterdrücken. Während Menschen selbst bei langen Wortlisten stabile und hochpräzise Leistungen erbringen können, scheitern die aktuellen KI-Modelle daran kläglich. Zu diesem Ergebnis kommt ein Forscherteam um Suketu Chandrakant Patel von der City University of New York.

Die Autoren stellten fest, dass Sprachmodelle bei einer Liste von fünf Wörtern keine Schwierigkeiten hatten, sich auf die Nennung der Farbe zu konzentrieren, wenn Wortfarbe und Farbwort nicht übereinstimmten. Doch als die Wortliste länger wurde, verschlechterte sich die KI-Leistung dramatisch. GPT-4o fiel von einer Genauigkeit von 91 Prozent bei fünf Wörtern auf 57 Prozent bei zehn Wörtern und 15 Prozent bei 40 Wörtern. Claude 3.5 Sonnet blieb bis zu 20 Wörtern stabil, brach jedoch bei 40 Wörtern auf eine Genauigkeit von 24 Prozent ein. In Versuchen mit einer Wortliste, die sowohl übereinstimmende als auch nicht übereinstimmende Farben enthielt, war die Leistung der Sprachmodelle noch schlechter und sank bei den nicht übereinstimmenden Elementen auf nahezu 0 Prozent Genauigkeit. Ähnliche Ergebnisse wurden bei GPT-5, Claude Opus 4.1 und Gemini 2.5 ermittelt.

Sobald mehrere konkurrierende Informationen gleichzeitig verarbeitet werden müssen, fällt es den KI-Systemen schwer, sich für die relevante Aufgabe zu entscheiden und störende Reize auszublenden

Die Fähigkeit der KI, die richtige Farbe zu benennen, nimmt also ab, je länger die Wortliste wird. Offenbar stoßen die Aufmerksamkeitsmechanismen moderner Sprachmodelle an ihre Grenzen, sobald die Anforderungen steigen. Auffällig ist dabei der Unterschied zum Menschen: Zwar lassen auch wir uns von widersprüchlichen Informationen irritieren, doch unsere Leistung bleibt selbst bei längeren Listen weitgehend stabil. KI-Modelle hingegen haben große Probleme damit, ihre Aufmerksamkeit gezielt auf die Farbe zu richten, wenn Wort und Farbe nicht zusammenpassen. Das macht eine grundlegende Schwäche sichtbar: Sobald mehrere konkurrierende Informationen gleichzeitig verarbeitet werden müssen, fällt es den Systemen schwer, sich für die relevante Aufgabe zu entscheiden und störende Reize auszublenden.

Das hat, so erklären die Wissenschaftler, vor allem damit zu tun, wie die Sprachmodelle funktionieren. Ihre Leistungsfähigkeit beruht darauf, dass sie Schritt für Schritt das jeweils nächste Wort voraussagen, basierend auf dem bisherigen Kontext. Deswegen können sie zwar beeindruckend menschenähnliche Texte schreiben und selbst anspruchsvolle Aufgaben lösen, aber sie haben eben keine innere Kontrolle. Sie erkennen eigene Fehler kaum, haben Schwierigkeiten, widersprüchliche Informationen zu durchschauen, und können ihre Strategie nicht flexibel anpassen. Wenn Unsicherheit oder falsche Zwischenschritte auftreten, machen sie oft einfach weiter – statt innezuhalten und gegenzusteuern.

Die Ergebnisse deuten darauf hin, dass das eigentliche Problem moderner KI-Systeme nicht im »Gedächtnis« liegt, sondern in der Steuerung ihrer Aufmerksamkeit. Um wirklich robuster und verlässlicher zu werden, müssten künftige Modelle lernen, ihre Verarbeitung gezielt zu lenken, Prioritäten zu setzen und mit widersprüchlichen Informationen umzugehen. Statt nur mehr Daten zu speichern, braucht es also vor allem ein digitales Pendant zu dem, was beim Menschen als exekutive Kontrolle funktioniert und uns planvoll und zielorientiert handeln lässt. Dann bestehen KI-Systeme künftig vielleicht auch den Stroop-Test.

  • Quellen

Patel, S. et al., PNAS Nexus 10.1093/pnasnexus/pgag149, 2026

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.