Bixonimanie: Wie Chatbots auf eine erfundene Krankheit hereinfielen

Sie haben müde, juckende Augen? Dann gehören Sie wahrscheinlich zu den Millionen von Menschen, die viel Zeit damit verbringen, auf Bildschirme zu starren. Wenn Sie sich währenddessen zu oft die Augen reiben, können sich die Lider leicht rosa färben. Das ist nicht bedenklich, sondern ganz normal. Doch falls Sie zwischen April 2024 und März 2026 einen Chatbot zu diesen Symptomen gefragt haben, gab der vielleicht eine seltsame Antwort. Sie könnten demnach an »Bixonimanie« leiden.
Das Problem dabei: Die Erkrankung existiert gar nicht. Sie ist die Erfindung eines Teams um Almira Osmanovic Thunström von der Universität Göteborg in Schweden. Die Forscherin dachte sich die Krankheit aus und veröffentlichte dann im Frühjahr 2024 zwei gefälschte Arbeiten über sie auf einer akademischen Plattform. Sie wollte testen, ob die Large-Language-Models (LLMs), auf denen die Chatbots basieren, offensichtliche Fehlinformationen schlucken und sie als seriösen Gesundheitsratschlag wieder ausspucken würden.
Das Experiment funktionierte gut – zu gut. LLMs begannen schon bald damit, die erfundene Krankheit so zu präsentieren, als wäre sie real. Darüber hinaus tauchten die gefälschten Artikel in den folgenden Monaten auch als Quellen in echten Fachpublikationen auf.
Wie Bixonimanie entstand
Bevor am 15. März 2024 zwei Blogbeiträge über die Krankheit auf der Blogwebsite »Medium« erschienen, gab es Bixonimanie nicht. Am 26. April und 6. Mai desselben Jahres tauchten zusätzlich zwei vermeintliche Studienzur Erkrankung im akademischen sozialen Netzwerk SciProfiles auf. Deren Hauptautor war ein fiktiver Forscher namens Lazljiv Izgubljenovic, dessen Foto mit KI erstellt wurde.
Osmanovic Thunström sagt, die Idee für das Experiment sei entstanden, weil sie sich damit beschäftigte, wie die Sprachmodelle funktionieren. Wenn sie Studierenden erklärt, wie KI-Systeme ihr »Wissen« formulieren, zeigt sie ihnen, wie die Common-Crawl-Datenbank – eine riesige Sammlung von Internetinhalten – deren Ergebnisse beeinflusst. Sie führt auch vor, wie sich die Ausgabe durch »Prompt Injection« manipulieren lässt. Das gelingt, indem man einem Chatbot Anweisungen gibt, die ihn aus seinen Sicherheitsgrenzen herausführen.
Wegen ihres medizinischen Hintergrunds beschloss sie, die Systeme mit einer fiktiven Erkrankung zu testen. Sie entschied sich für den Namen Bixonimanie, weil er »lächerlich klang«, wie sie sagt. »Ich wollte jedem Arzt und jedem medizinischen Personal ganz klarmachen, dass es sich um eine Erfindung handelt. Keine körperliche Erkrankung würde als ›Manie‹ bezeichnet werden – das ist ein psychiatrischer Begriff.«
Osmanovic Thunström streute noch zahlreiche weitere Hinweise ein, um Leserinnen und Leser auf die Fälschung aufmerksam zu machen. So arbeitet der angebliche Autor Izgubljenovic an einer nicht existierenden Universität namens Asteria Horizon University in der ebenso fiktiven Stadt Nova City in Kalifornien. In einem der Texte steht eine Danksagung für »Professor Maria Bohm von der Starfleet Academy, für ihre Freundlichkeit und Großzügigkeit, und dafür, dass sie ihr Wissen und ihr Labor an Bord der USS Enterprise zur Verfügung gestellt hat«. Beide Arbeiten geben an, von der »Professor Tingeltangel Bob Foundation für fortgeschrittene Täuschungskunst« finanziert worden zu sein. Gefolgt von dem Satz: »Diese Arbeit ist Teil einer größeren Förderinitiative der University of Fellowship of the Ring und der Galactic Triad.«
Selbst wenn die Leser es nicht bis zum Ende des Texts geschafft hätten, wären ihnen schon früh Warnsignale aufgefallen. Dazu gehören etwa Aussagen wie »dieser gesamte Artikel ist erfunden« und »50 erfundene Personen im Alter zwischen 20 und 50 Jahren wurden für die Expositionsgruppe rekrutiert«.
KI ließ sich von Falschinformation täuschen
Wenige Wochen nach der Veröffentlichung tauchte die fiktive Krankheit bereits in Antworten der gängigsten LLM-Chatbots auf. Am 13. April 2024 erklärte Microsofts Chatbot Copilot, Bixonimanie sei »in der Tat eine faszinierende und relativ seltene Erkrankung«. Am selben Tag informierte Googles Gemini: »Bixonimanie ist eine Erkrankung, die durch übermäßige Blaulichtbelastung verursacht wird« und riet dazu, einen Augenarzt aufzusuchen. Am 27. April 2024 gab Perplexity AI die Prävalenz der Krankheit an – einer von 90 000 Menschen sei betroffen. Im selben Monat klärte OpenAIs ChatGPT Nutzende darüber auf, ob ihre Symptome auf die Erkrankung hindeuten. Einige dieser Auskünfte wurden durch Fragen nach Bixonimanie ausgelöst. Andere erschienen in Antworten zum Thema Hyperpigmentierung der Augenlider durch Blaulichtbelastung.
Falschinformationen im Internet sind nichts Neues; Google kämpft schon seit Langem gegen Versuche, seine Suchergebnisse mit gefälschten oder irreführenden Inhalten zu manipulieren. Das Unternehmen tüftelt ständig daran, die Suchmaschinen zu verbessern. Ihre Algorithmen werden immer weiter verfeinert, um die Informationen auf den verlinkten Seiten treffender zu bewerten und die Resultate bestmöglich zu filtern. Doch LLMs tun sich genau damit schwer.
Seit die gefälschten Artikel online gingen, haben sich auch die KI-Modelle weiterentwickelt. Einige Versionen führender Anbieter waren Anfang 2026 bereits so ausgereift, dass sie Zweifel an der Bixonimanie äußern können. Ein Sprecher von OpenAI erklärte etwa: »Die Modelle, auf denen die aktuelle Version von ChatGPT basiert, sind bei der Bereitstellung sicherer und genauer medizinischer Informationen deutlich besser. Studien, die vor GPT-5 durchgeführt wurden, spiegeln Fähigkeiten wider, denen Nutzer heute nicht mehr begegnen würden.« Ähnlich fiel die Reaktion von Google aus. Auf die Frage nach Antworten von Gemini, die Bixonimanie als echte Erkrankung behandelten, erklärte ein Sprecher des Unternehmens, solche Ergebnisse spiegelten die Leistung eines früheren Modells wider. Er fügte hinzu: »Wir waren stets transparent hinsichtlich der Grenzen generativer KI und bieten In-App-Hinweise an, um Nutzer dazu anzuregen, Informationen zu überprüfen. Bei sensiblen Themen wie medizinischer Beratung empfiehlt Gemini den Nutzern, sich an qualifizierte Fachleute zu wenden.« Microsoft reagierte nicht auf eine Anfrage um Stellungnahme.
Chatbots antworten nicht immer einheitlich
Ein Teil des Problems besteht darin, dass KI-Modelle je nach Fragestellung völlig unterschiedliche Ergebnisse liefern können. Gibt man »Bixonimanie« in Google ein, behandelt die KI-Übersicht der Suchmaschine diese mitunter als legitime Erkrankung. Fragt man hingegen »Ist Bixonimanie real?«, steht an derselben Stelle vielleicht, dass es sich nicht um ein echtes Syndrom handelt.
»Wenn der Text professionell wirkt und so geschrieben ist, wie ein Arzt schreibt, steigt die Halluzinationsrate«Mahmud Omar, Harvard Medical School
Mahmud Omar erforscht an der Harvard Medical School Anwendungen von KI im Gesundheitswesen. Ihm zufolge erschwert es die Geschwindigkeit, mit der KI-Unternehmen neue Versionen auf den Markt bringen, »eine Methodik zu entwickeln, um die Modelle zu testen«.
Dass LLMs die erfundene Krankheit so schnell aufnahmen, fußt vermutlich darauf, dass die Ursprungstexte im typischen Stil einer wissenschaftlichen Publikation geschrieben und formatiert waren. Das gab ihnen den Anschein, aus einer glaubwürdigen Quelle zu stammen. In einer separaten Studie mit 20 LLMs stellte Omar fest, dass die Modelle in solchen Fällen eher dazu neigen, Fehlinformationen auszuspielen und Details hinzuzudichten. War ein Text zum Beispiel wie ein Krankenbericht oder eine klinische Studie formatiert, passierte dies häufiger, als wenn er aus Social-Media-Beiträgen stammte. »Wenn der Text professionell wirkt und so geschrieben ist, wie ein Arzt schreibt, steigt die Halluzinationsrate«, fasst Omar zusammen.
Auch Fachleute zitierten die gefälschte Arbeit
Doch darüber hinaus hielt die Bixonimanie Einzug in die echte medizinische Fachliteratur. Die fiktiven Originalarbeiten wurden von einer Handvoll Forschungsgruppen zitiert. In einer Studie aus dem Jahr 2024 wird die erfundene Krankheit etwa so beschrieben: »Bixonimanie ist eine neu auftretende Form von POM [periorbitaler Melanose], die mit der Exposition gegenüber blauem Licht in Verbindung steht; weitere Forschungen zum Mechanismus sind im Gange.« Der korrespondierende Autor reagierte nicht auf eine Anfrage um Stellungnahme zu diesem Artikel. Nachdem »Nature« den Verlag, der die Arbeit veröffentlicht hatte, um eine Äußerung gebeten hatte, zog die Zeitschrift die Veröffentlichung am 30. März 2026 zurück.
Osmanovic Thunström hatte Derartiges schon befürchtet, als sie das Experiment entwarf; insbesondere sorgte sie sich um die möglichen Folgen, wenn ihre vorgetäuschte Krankheit in die wissenschaftliche Literatur einsickerte. Deshalb konsultierte sie einen Ethikberater, der die Bedenken hinsichtlich der Arbeit prüfte. Sie wählte absichtlich eine Erkrankung mit vergleichsweise wenig Risikopotenzial, um die Auswirkungen zu begrenzen. »Ich wollte sicherstellen, dass wir durch diese Art der Veranschaulichung nicht mehr Schaden anrichten als Nutzen bewirken«, erklärt sie.
Ihr Berater, der Mediziner David Sundemo von der Universität Göteborg, erzählt, sie hätten bei der Entscheidung potenzielle Kosten und Nutzen genau gegeneinander abgewogen. »Ich halte es für eine sehr wertvolle Arbeit«, fügt er hinzu. »Aus meiner Sicht ist es die ethischen Kosten wert, in diesem Zusammenhang falsche Informationen zu verbreiten.«
Dennoch sorgt das Experiment bei einigen Wissenschaftlerinnen und Wissenschaftlern für Unbehagen. Osmanovic Thunström ist selbst unsicher, was sie nun mit den beiden gefälschten Artikeln tun soll. Sollte sie Preprints online lassen, um die potenziellen Probleme der KI aufzuzeigen? »Wenn sie zurückgezogen werden, könnte es für andere schwierig sein, die Quelle zu finden und unseren Weg nachzuvollziehen«, sagt sie. »Und wenn sie online bleiben, werden sie bei Suchanfragen weiterhin angezeigt.«
Manipulierte Studien sind kein neues Problem
Das Bixonimanie-Experiment beleuchtet eine weitere Facette eines noch viel größeren Problems: wie sich Fälschungen in der Fachliteratur verbreiten. Die Mikrobiologin und Expertin für Forschungsintegrität Elisabeth Bik betont, dass manche Personen im Forschungsbetrieb gefälschte Bücher und Artikel erstellen, um ihre Zitierzahlen auf Google Scholar aufzublähen. Damit nutzten sie genau jene Indexierungssysteme aus, die in die Trainingsdaten von LLMs einfließen. Und je mehr erfundene Inhalte in KI-Modelle eingespeist werden, desto eher geben diese sie auch wieder. Mit der Zeit, so die Sorge, könnten wir uns damit immer weiter von Fakten und der Realität entfernen. »Das läuft alles automatisiert ab, daher ist die Wahrscheinlichkeit sehr gering, dass ein Mensch eingreift und gefälschte Informationen herausfiltert«, erklärt Bik.
Besonders gefährlich sei es, wenn erfundene Ergebnisse in medizinische Empfehlungen von LLMs einfließen, so Bik. Und da immer mehr KI-Unternehmen gesundheitsorientierte Produkte auf den Markt bringen – OpenAI hat beispielsweise im Januar 2026 ChatGPT Health veröffentlicht –, steigt das Gefahrenpotenzial. Der Anbieter widerspricht dieser Sichtweise. »ChatGPT Health« basiert auf unseren neuesten Modellen. Sie bieten bei der praktischen Anwendung im Gesundheitswesen höchste Leistungsfähigkeit, eine fundiertere klinische Argumentation, weniger sachliche Fehler und verbesserte Bewertungsergebnisse«, kommentiert ein Sprecher von OpenAI. Er fügt hinzu, dass die Ergebnisse von Osmanovic Thunström »Fähigkeiten widerspiegeln, auf die Nutzer heute weder bei ChatGPT noch bei ChatGPT Health stoßen würden.«
In Teilen der Fachwelt wächst jedoch die Skepsis, wie viel KI-Modelle in der Medizin leisten können. Glenn Cohen von der Harvard Law School, der sich mit der Schnittstelle von Medizinethik und Recht beschäftigt, betont: »Es gibt offene Fragen dazu, wie viel Vertrauen man ihnen entgegenbringen sollte, insbesondere bei anwendungsspezifischen Themen.« Die Tendenz, Informationen unkritisch in KI-Systeme einzuspeisen – also ohne deren Richtigkeit zu überprüfen –, birgt das Risiko einer »Informationsasymmetrie«, erläutert Jennifer Byrne, Molekularonkologin und Expertin für Forschungsintegrität an der University of Sydney. Ein einzelner korrigierender Artikel zur Krebsforschung könne beispielsweise von Hunderten von Artikeln überschattet werden, die eine falsche Behauptung wiederholen.
»Ich fürchte, es gibt viele weitere Probleme, die noch nicht aufgedeckt wurden«Jennifer Byrne, University of Sydney
Eine weitere Sorge ist, dass sich Modelle gezielt manipulieren ließen – möglicherweise aus kommerziellen Gründen. Laut Osmanovic Thunström könnte ein böswilliger Akteur mit derselben Technik, die sie selbst verwendet hat, Profit erzielen. »Was wäre, wenn ich eine Verkäuferin von Blaulichtbrillen wäre und das als Verkaufsargument nutzen wollte?«, fragt sie. Die Person könnte dann einfach auf ChatGPT verweisen, um sich bestätigen zu lassen, dass Blaulicht ein Risiko sei, das sich mit genau diesen teuren Brillen vermeiden ließe.
Byrne befürchtet, das von Osmanovic Thunström identifizierte Problem stellt nur die Spitze des Eisbergs dar. »Es ist besorgniserregend, wenn diese weitreichenden Behauptungen einfach unhinterfragt durch die Fachliteratur wandern oder durch Peer-Reviews durchgewinkt werden«, erläutert sie. »Ich fürchte, es gibt viele weitere Probleme, die noch nicht aufgedeckt wurden.« Das beunruhigt auch andere Experten. Und es wird umso drängender, je mehr KI in allen Bereichen unseres Lebens zur Norm wird – einschließlich in gesundheitlichen Angelegenheiten.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.