Direkt zum Inhalt

Mehr Paper, sinkende Qualität: Der Umgang der Wissenschaft mit KI-Tools ist verantwortungslos

Generative KI wirkt kompetent und neutral. Sie unterstützt beim Peer-Review-Prozess und steigert die Produktivität. Doch ihr Einsatz höhlt zentrale Prinzipien der Wissenschaft aus, schreibt Jens Foell in einem Gastkommentar.
Eine 3D-Darstellung eines Gesichts, das aus zahlreichen kleinen, blauen Quadraten besteht. Die Quadrate lösen sich auf der rechten Seite in den Raum auf und erzeugen einen dynamischen Effekt. Die Darstellung vermittelt ein Gefühl von Digitalisierung und Datenfluss. Der Hintergrund ist in einem dunklen Blau gehalten, was den Kontrast zu den helleren Quadraten verstärkt.
Die Grenze zwischen menschlicher und künstlicher Intelligenz verschwimmt zunehmend. Gerade in der Wissenschaft, in der Werte wie Faktentreue, Gründlichkeit und Transparenz von großer Bedeutung sind, ist ein fahrlässiger Umgang mit KI-Tools pflichtvergessen.

Egal, wohin man schaut: Es scheint, als seien KI-Tools im wissenschaftlichen Alltag bereits fest verankert. Eine Umfrage aus dem Frühjahr 2026 unter mehr als 6000 Forschenden in Deutschland ergab, dass mehr als ein Viertel der Befragten mindestens einmal täglich KI-Tools in der Forschungsarbeit einsetzen. Etwa ein Drittel nutzt die Technologie bei der Literatursuche und beim Schreiben von Manuskripten – so auch das Autorenteam der zitierten Studie. Die Gruppe kommt daraufhin zu dem Schluss, dass KI-Tools nicht mehr nur als hilfreiche Assistenten, sondern vielmehr als gleichwertige Partner eingesetzt werden. Infolgedessen gab mit knapp 70 Prozent der überwiegende Teil der Befragten an, davon auszugehen, dass künstliche Intelligenz ihr jeweiliges Forschungsfeld in den nächsten zehn Jahren transformieren oder sogar revolutionieren wird.

Diese Umfrageergebnisse sind aus mehreren Gründen problematisch – ja, sogar erschreckend. Wer in der Wissenschaft mit KI-Tools arbeitet, sollte das nicht ohne ein sehr tiefgehendes Verständnis der Technologie tun. Die Fehler und Probleme, die diese neuen Bots verursachen, unterscheiden sich oft in unerwarteter Weise von dem, was die eigene Erfahrung lehrt. Und mit fehleranfälligen Instrumenten, die man nicht ausreichend verstanden hat, ist in der Wissenschaft niemandem geholfen.

Ein beliebtes Einsatzgebiet ist das sogenannte Peer Review. Dieser Prozess der unabhängigen Bewertung von Manuskripten vor ihrer Veröffentlichung bildet einerseits das Rückgrat der akademischen Forschung. Andererseits verlangt das Vorgehen den Fachleuten, die sie prüfen sollen, einen bemerkenswerten (und unbezahlten) zeitlichen Aufwand ab. Jedes Werkzeug, das beim Lesen eines Berichts oder beim Formulieren einer Bewertung hilfreich sein kann, wird daher verständlicherweise mit offenen Armen empfangen. Entsprechend zeigte eine internationale Umfrage, dass fast 60 Prozent der befragten Forschenden bereits KI-Tools beim Schreiben von Reviews eingesetzt haben.

Mehr Manuskripte mit sinkender Qualität

Gleichzeitig lässt es einem die Haare zu Berge stehen, wenn man sich anschaut, wie generative KI in der Wissenschaft eingesetzt wird – und welche Konsequenzen das hat. Die Verantwortlichen hinter dem Preprint-Archiv »arXiv« melden, dass sich das Volumen der Einreichungen seit der Einführung der neuen KI-Generation um etwas mehr als 50 Prozent erhöht hat, aber dass gleichzeitig mehr als fünfmal so viele Ablehnungen geschrieben werden müssen wie zuvor. Das zeigt: Es ist zwar einfacher geworden, mithilfe von KI ein schnelles Manuskript zu schreiben, doch nicht immer wird dabei die gleiche Qualität eingehalten wie zuvor. Eine andere Analyse legt nahe, dass einzelne Forscherinnen und Forscher zwar von den Tools profitieren – mehr Paper, mehr Zitationen, mehr Produktivität –, dass aber die Wissenschaft an sich unter ihrer Verwendung leidet, da die resultierenden Studienberichte schlechter werden und weite Teile des Forschungsfelds ignoriert werden.

Zudem zeigen vergleichende Studien, dass sich das beliebte Programm ChatGPT in einer beträchtlichen Anzahl von Fällen auf wissenschaftliche Paper bezieht, die es überhaupt nicht gibt. Eine Studienübersicht, in der gelobt wird, wie viel Zeit sich durch die Technologie einsparen lässt, macht ebenso deutlich, dass die Erfolgsrate für die Suche relevanter Studien teils bei unter fünf Prozent liegt und das Risiko für halluzinierte Quellen bei bis zu 91 Prozent. Die Redakteurin eines Journals in den Wirtschaftswissenschaften berichtet, dass sie angefangen habe, bei jedem neuen Manuskript zunächst zu prüfen, ob es die gelisteten Referenzen überhaupt gibt – und sie dadurch ein gutes Viertel aller Einreichungen ablehnen muss.

Viele Chatbots machen ihre Arbeit oft schlecht und verstecken ihre grundlegende Unfähigkeit hinter einer Fassade aus Selbstbewusstsein und vorgegaukelter Kompetenz

Das alles klingt schockierend schlecht, und man fragt sich automatisch, warum nicht viel mehr über diese massiven Probleme gesprochen und informiert wird. Für KI-Expertinnen und -Experten ist all das allerdings nicht überraschend: Schließlich sind Chatbots ganz grundlegend nicht darauf ausgelegt, möglichst faktentreue Aussagen zu machen, sondern auf Basis ihrer Trainingsdaten die wahrscheinlichste Antwort zu präsentieren. Diese kann, muss sich aber nicht mit der Realität decken. Durch ihre beeindruckend menschliche Ausdrucksweise kauft man ihnen dabei auch ein falsches Ergebnis gerne ab, da dieses oft im Brustton der Überzeugung präsentiert wird.

Anders gesagt: Viele Chatbots machen ihre Arbeit oft schlecht und verstecken ihre fundamentale Unfähigkeit hinter einer Fassade aus Selbstbewusstsein und vorgegaukelter Kompetenz. Wem das in der Wissenschaft bekannt vorkommt, der hatte vermutlich selbst schon einmal einen richtig miesen Laborassistenten.

Grundsäulen der Wissenschaft werden von KI untergraben

Da die Technologie der generativen KI noch so neu ist, besteht die Möglichkeit, dass es sich bei den negativen Berichten um Kinderkrankheiten handelt. Es ist denkbar, dass sich KI-Tools in der Zukunft verbessern und diese Nachteile loswerden, sodass sie – wie von einem Großteil der Forschenden erwartet – die Wissenschaft revolutionieren werden. Aber ob das wirklich so kommen wird, ist bei Weitem noch nicht klar. Schaut man sich an, wie Sprachmodelle grundlegend gebaut sind, werden sie mit zunehmender Größe nicht unbedingt zuverlässiger. Zudem werden neue KIs zunehmend mit KI-generierten Daten trainiert – eine Rekursion, durch die in Zukunft der sogenannte Modellkollaps droht. So nennt man den Punkt, ab dem die KI nur noch auf Basis von wiederum KI-generierten Informationen entscheidet, sodass sie keine sinnvolle Arbeit mehr durchführen kann.

Wissenschaft dagegen ist geprägt durch Faktentreue, Gründlichkeit und Transparenz. Werkzeuge, die bei der Forschungsarbeit eingesetzt werden, müssen vor allem verlässlich sein und von den Fachleuten durchdringend verstanden werden. Diese Ansprüche an Wissenschaft sind unumstritten. Die aufregende neue KI-Generation ist allerdings probabilistisch und gestaltet sich üblicherweise als eine Blackbox, deren Prozesse von außen nicht einsehbar sind. Das verhindert praktisch jede Form von Transparenz.

Und auch die beiden anderen Grundsäulen der Wissenschaft werden von einer generativen KI wie ChatGPT untergraben. Obwohl die Genauigkeit und Verlässlichkeit des Chatbots bei manchen Aufgaben in der Wissenschaft gefeiert wird, zeigt sich im Detail oft ein anderes Bild. Eine Analyse aus dem Frühjahr 2026 zum Beispiel macht deutlich, dass das Programm zwar über alle getesteten Hypothesen hinweg 80 Prozent korrekt bewertete – wenn man aber ausschließlich auf die nicht signifikanten Hypothesen schaute, lag die Akkuratheit bei gerade einmal 16 Prozent. Dieses Ergebnis lässt erkennen, dass die Fallstricke der Technologie häufig nicht da lauern, wo man sie erwartet: Nach der Logik des menschlichen Denkens sollte die Akkuratheit nicht in diesem Ausmaß von der Signifikanz der getesteten Hypothese abhängen. Aber die KI folgt nun mal nicht der Logik des menschlichen Denkens, allen Beteuerungen der Hersteller zum Trotz.

Hinzu kommt, dass gute Wissenschaft nachhaltig und ethisch fair betrieben wird. Bei der generativen KI gibt es jedoch schwerwiegende Vorwürfe, was ihren Energieverbrauch sowie die Reproduktion von beispielsweise rassistischen Vorurteilen in den Trainingsdaten angeht. In einer Studie etwa wurde untersucht, wie unterschiedliche generative KIs Menschen in einem Bewerbungsverfahren auswählen. Es zeigte sich ein beträchtlicher Bias nach Hautfarbe und Geschlecht, der die bestehenden gesellschaftlichen Vorurteile aus den Trainingsdaten abbildete oder sogar verstärkte.

Auch zum Datenschutz gibt es Bedenken; vor allem in Fällen, in denen personenbezogene Informationen zur Bearbeitung auf die Server der KI-Hersteller geladen oder sogar für das Training neuer KIs eingesetzt werden, wie es oft üblich ist. Es stellt sich daher die Frage, ob und wie der Einsatz von KI zur wissenschaftlichen Datenanalyse vorher von entsprechenden Ethikkommissionen geprüft werden muss und ob dem stattgegeben werden muss.

Wissenschaftskommunikation erfordert Authentizität

Und das ist noch nicht alles. In dem Moment, in dem wissenschaftliche Erkenntnisse das Labor verlassen und nach außen kommuniziert werden, kommt ein weiteres schwerwiegendes Problem dazu: Wissenschaftskommunikation erfordert Authentizität. Dass Methoden und Ergebnisse von einem unabhängigen Menschen eingeordnet werden, ist ein unabdingbares Element dieser Art von Kommunikation. Und ebenso wie die Faktentreue und die Transparenz wird auch die menschliche Authentizität notwendigerweise reduziert, wenn eine KI zum Einsatz kommt. Dieser Umstand birgt das hohe Risiko eines Vertrauensverlustes in Wissenschaftskommunikation und Wissenschaft zu einer Zeit, in der diese wichtigen Felder zunehmend unter politischen und gesellschaftlichen Beschuss zu geraten scheinen.

Die Gefahren, die sich durch einen unverantwortlichen Umgang mit KI in der Wissenschaft ergeben, sind zu groß und zu grundlegend, um dabei halbe Sachen zu machen

Faktentreue, Bias, Energieverbrauch, Datenschutz, Vertrauensverlust. Werden alle diese Aspekte von allen Forschenden, welche die Technologie einsetzen, wirklich vollständig verstanden? Falls nicht, wovon auszugehen ist, dann ist der derzeitige Umgang der Wissenschaft mit KI-Tools verantwortungslos. Die akademische Forschung benötigt dringend Regulierungen, und zwar möglichst solche, die federführend von KI-kritischen Expertinnen und Experten erstellt werden. Denn die Gefahren, die sich durch einen unverantwortlichen Umgang mit KI in der Wissenschaft ergeben, sind zu groß und zu grundlegend, um dabei halbe Sachen zu machen.

Was die Wissenschaft von allen anderen menschlichen Unterfangen unterscheidet, ist die Motivation, die eigenen Methoden und Erkenntnisse jederzeit zu hinterfragen und bei Bedarf rigoros zu kippen oder zu ersetzen. Vor diesem Hintergrund müssen wir uns fragen, welchen KI-Einsatz wir uns dabei wirklich leisten können und welchen nicht. In Zukunft muss die Forschung noch faktentreuer, gründlicher und transparenter arbeiten als jetzt, nicht weniger, wie es die KI tut. Sie muss noch nachhaltiger und inklusiver werden als jetzt, nicht weniger, wie es die KI ist. Sie muss Ethik, Datenschutz und Datensicherheit noch ernster nehmen als jetzt, nicht weniger ernst, wie es bei der KI der Fall ist. Und vor allem muss jedes eingesetzte Werkzeug von den Anwendern in der Wissenschaft grundlegend verstanden werden.

Dass diese Probleme nicht bereits vor dem ersten Einsatz von KI in Wissenschaft und Wissenschaftskommunikation diskutiert wurden, ist eine Verantwortungslosigkeit mit sehr hohem Gefahrenpotenzial. Sollte es durch diese Leichtsinnigkeit tatsächlich zu einem Vertrauensverlust in die Wissenschaft kommen, wird dieser aller Wahrscheinlichkeit nach nicht erkannt werden, bevor es zu spät ist. Es bleibt zu hoffen, dass kritische Stimmen zu KI mehr Gehör finden.

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

  • Quellen

Adel, A., Alani, N., AI & SOCIETY 10.1007/s00146–025–02406–7, 2025

Chugunova, M. et al., Research Policy 10.1016/j.respol.2025.105381, 2026

Cicek, M. et al., Rutgers Business Review 10, 2025

Walters, W., Wilder, E., Scientific Reports 10.1038/s41598–023–41032–5, 2023

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.