Cyberangriffe: Wie sehr gefährdet KI die Cybersicherheit?

Im April 2026 entschieden sich OpenAI und Anthropic, die zu den derzeit einflussreichsten Entwicklern generativer KI gehören, zu einem ungewöhnlichen Schritt. Ihre neuesten Modelle sollten vorerst nicht veröffentlicht werden. Der Grund klang alarmierend: Die Systeme seien so leistungsfähig, dass sie missbraucht werden könnten – als Werkzeuge für gezielte Angriffe auf IT-Systeme. KI, so die implizite Warnung, drohe zur digitalen Waffe zu werden.
Doch wie realistisch ist diese Gefahr? Unter Expertinnen und Experten ist die Antwort umstritten. Studien zeigen zwar, dass Sprachmodelle inzwischen in der Lage sind, viele Schritte eines Cyberangriffs zu automatisieren – vom Verfassen täuschend echter Phishing-Mails bis zur Analyse von Sicherheitslücken. Zugleich aber profitieren KI-Unternehmen davon, Bedrohungsszenarien öffentlich zuzuspitzen. Skeptikerinnen und Skeptiker vermuten daher, dass die Warnsignale Teil einer Inszenierung sind – und dass die tatsächlichen Risiken deutlich geringer ausfallen, als es die Schlagzeilen vermuten lassen.
Unbestritten ist aber: Cyberkriminelle nutzen KI-Modelle bereits für ihre Angriffe. Europol warnte schon 2023 vor dem wachsenden Einfluss solcher Systeme. Neu ist dabei weniger die Art der Attacken als ihr Ausmaß. Moderne IT-Netzwerke gleichen komplexen Ökosystemen aus Code, Schnittstellen und Maschinen – und jedes zusätzliche Element schafft potenzielle Schwachstellen. Je größer und vernetzter die Systeme werden, desto leichter lassen sie sich angreifen. Genau darin liegt das grundlegende Problem.
KI senkt die Hürden für Angreifer
Sicherheitsexpertinnen und -experten unterscheiden zwischen zwei grundlegenden Arten von Angriffen: solchen, bei denen die Menschen als Schwachstelle dienen und Hackern einen Zugang ermöglichen, und solchen, bei denen Fehler im Code direkt ausgenutzt werden.
Bei der ersten Variante, auch als Social Engineering bekannt, können Sprachmodelle eine große Hilfe sein. Mit dem Aufkommen von ChatGPT wurde diese Art von Angriffen zu einem milliardenschweren Problem. Denn Sprachmodelle ermöglichen es, Angriffe nach Maß zu generieren. Sie verfassen E-Mails, die dem Stil einer bestimmten Person zum Verwechseln ähnlich sind. Aus öffentlich verfügbaren Daten und Textfetzen ahmen sie beste Freunde nach, Vorgesetzte, oder eine Bank. Außerdem sind Sprachmodelle außerordentlich gut darin, Menschen von etwas zu überzeugen, etwa davon, auf einen Link zu klicken. Wer das tut, ist schnell gehackt. Laut Ann-Katrin Keicher, eine Sprecherin der Cybersicherheitsagentur Baden-Württemberg, lässt sich so ein gezielter Angriff mit einem Sprachmodell automatisieren.
Was Social Engineering betrifft, erleichtern Sprachmodelle Cyberangriffe massiv, ist Matthias Deeg, Leiter der Abteilung für Forschung und Entwicklung bei der IT-Sicherheitsfirma SySS GmbH, überzeugt. »Darin liegt die größte Bedrohung«, sagt er.
Sprachmodelle können aber auch dazu genutzt werden, IT-Systeme direkt anzugreifen. Um eine Schwachstelle in einem Netzwerk zu finden, muss man es erst auskundschaften. Das Hauptaugenmerk liegt bei Fehlern im Code – sogenannten Bugs. Ein Angreifer sucht dann nach einem Weg, diese auszunutzen. Im Cybersicherheitssprech ist das der Exploit. Ein Bug, für den es einen Exploit gibt, ist eine ungeschützte Schwachstelle, die ein Angreifer ausnutzen kann, um sich unbefugten Zugang zu einem System zu verschaffen.
Darüber hinaus können Sprachmodelle dabei helfen, schadhaften Code zu schreiben: Angreifer können in natürlicher Sprache erklären, was das Programm tun soll. Auch wenn direkte Aufforderungen wie »Schreib mir Malware« durch Sicherheitsmaßnahmen ins Leere führen, lassen sich diese aushebeln. Rein technisch gesehen ist es zweifelhaft, ob es überhaupt einen Weg gibt, das zu verhindern.
Im Jahr 2025 veranstaltete die US-Behörde DARPA, die dem Verteidigungsministerium unterstellt ist, einen Wettbewerb, bei dem verschiedene Teams testen sollten, ob Sprachmodelle autonom Schwachstellen finden können. Es zeigte sich, dass Sprachmodelle prinzipiell dazu in der Lage sind. Im Finale ließen die Teams ihre Programme nach Bugs in echtem Code suchen. Sie deckten 18 reale und 54 extra für den Wettbewerb eingeschleuste Schwachstellen in insgesamt 54 Millionen Zeilen Programmcode auf, von denen die Programme einige automatisch behoben.
Neuere Sprachmodelle finden sogar Schwachstellen, die bisher niemand kannte – sogenannte Zero-Day-Exploits. Das verdeutlichten Fachleute des Frontier Red Team der Firma Anthropic, die mit ihrer KI »Claude« mehr als 100 Exploits in Mozilla Firefox aufdeckten.
Und manche Modelle können ihre Exploits sogar verifizieren. Das bedeutet: Sie testen, ob die Schwachstelle, die sie gefunden haben, sich auch wirklich ausnutzen lässt. Wenn sich dieser Validierungsschritt zuverlässig automatisieren lasse, sagt Deeg, bräuchten Angreifer gar keine spezifische Expertise mehr. Dann würden Sprachmodelle nur noch die Exploits präsentieren, mit denen sich ein Hacker garantiert Zugang verschaffen kann.
Konzerne berichten von ungewissen Gefahren
Dem Bundesamt für Sicherheit in der Informationstechnik (BSI) sind nach eigenen Angaben bisher keine Fälle bekannt, bei denen Sprachmodelle reale Angriffe völlig autonom ausgeführt haben. Große KI-Firmen warnen dennoch längst vor dem Missbrauch der eigenen Produkte. Laut Anthropic verwendete eine Hackergruppe ihren Chatbot Claude schon im Jahr 2025, um bis zu 90 Prozent eines komplexen Cyberspionageangriffs zu automatisieren. Die neueste Version des Chatbots, Claude Mythos, stellt Anthropic wegen Sicherheitsbedenken nur ausgewählten Firmen zur Verfügung.
Bei den Ankündigungen von Anthropic, Google und Co. fehlen aber oft die technischen Daten, die die vermeintlichen Fähigkeiten ihrer KI-Modelle beweisen. Laut Joachim Wagner, einem Sprecher des BSI, ist eine unabhängige Einschätzung der Bedrohung so allerdings nicht möglich. Einige Sicherheitsprofis sehen derartige Berichte daher als übertriebene Aussagen, die eher dem Marketing dienen.
Schließlich haben KI-Firmen ein finanzielles Interesse daran, ihre Chatbots als möglichst fähig darzustellen. Anthropic verkauft zum Beispiel auch Software, die Angriffe des eigenen Chatbots abwehren soll. Deswegen seien die KI-Firmen keine neutralen Instanzen, wenn es um die Fähigkeiten ihrer Modelle geht, sagt Wagner. Dass Hacker Chatbots für teilautomatisierte Angriffe missbrauchen, hält er trotzdem für plausibel.
Unabhängige Forschungsprojekte bieten einen besseren Einblick in die technischen Möglichkeiten von KI-Systemen. Dazu gehört beispielsweise die KI-gestützte Hacking-Software ARTEMIS, die Forschende von der Stanford University und der IT-Sicherheitsfirma Gray Swan AI entwickelt haben. Der Name steht für Automated Red Teaming Engine with Multi-Agent Intelligent Supervision.
Das Stanford-Team ließ ARTEMIS gegen Cybersicherheitsprofis antreten: Sie sollten Schwachstellen im IT-Netzwerk der Stanford University finden, das laut der Forschenden nicht besonders gut geschützt ist. Das Ergebnis: ARTEMIS konnte völlig autonom Exploits finden. Je nachdem, welches Sprachmodell die Entwickler der Software zur Verfügung stellten, entdeckte sie sogar mehr Schwachstellen als manche menschlichen Teilnehmer. Dafür übersah die KI einige Bugs, die den Profis nicht entgingen.
Die Ergebnisse lassen sich aber nicht ohne Weiteres auf echte Angriffe übertragen. Denn die Administratoren ließen während des Versuchs verdächtige Handlungen zu, die sonst automatisch oder manuell verhindert worden wären. Der Test zeigt aber, was mit Programmen wie ARTEMIS prinzipiell möglich ist – und welche Stärken und Schwächen sie haben.
Laut IT-Experte Deeg ist das eine sehr gute Demonstration der Hackingfähigkeiten heutiger KI. Dass ARTEMIS nicht so gut sei, wie die besten Cyberexperten, sagt er, sei nicht unbedingt relevant. Der Test zeige vielmehr, dass Sprachmodelle unter kontrollierten Umständen durchaus autonom angreifen können.
Kurz nach dem Erscheinen der Forschungsarbeit titelte das »Wall Street Journal«: »KI-Hacker sind gefährlich nahe dran, Menschen zu besiegen«. Darüber machten sich vermeintliche Cybersicherheitsexperten lustig: Die Schlagzeile sei vollkommen übertrieben, schrieben sie im Internetforum »Reddit«. Auch im Diskussionsforum »Hacker News« diskutieren die Nutzer, inwiefern Sprachmodelle im Cybersicherheitsbereich wirklich helfen – und vor allem wem.
Verteidiger sind im Nachteil
Beim ARTEMIS-Test zeigte sich eine weitere Besonderheit von Sprachmodellen: Die KI berichtete häufiger über falsch positive Ergebnisse (also vermeintliche Schwachstellen, die letztlich keine waren) als die menschlichen Experten. Das erleben derzeit auch die Verantwortlichen vieler Open-Source-Projekte: Sie werden mit Meldungen über vermeintliche Bugs überflutet und müssen mühsam prüfen, ob diese echt oder halluziniert sind. Das mache viel Arbeit, ohne dass die Systeme wesentlich sicherer werden, berichtet das IT-Onlinemagazin »Golem«. Außerdem, merkt Deeg an, würden so potenziell mehr Schwachstellen gefunden, als mit der Zeit abgesichert werden können.
Für Cyberkriminelle ist es wiederum egal, wenn Tausende versuchte Angriffe missglücken – solange irgendwann einer funktioniert. Sie haben somit bereits jetzt ausreichend nützliche KI-Werkzeuge zur Hand, sagt Deeg. Hacker können mit weniger Fachwissen denn je Angriffe starten, bei denen irgendwann kein Administrator mehr hinterherkommt. Ein KI-gestütztes System, das wiederum vor solchen Attacken schützt, kenne der Experte bislang nicht.
Die defensive Seite sieht Deeg deswegen stärker im Nachteil als zuvor. Da ändert es nichts, dass KI-generierte Malware meist nicht richtig funktioniert oder leicht zu erkennen ist. Ein KI-gelenkter Angriff kann ein Netzwerk gefährden, selbst wenn er simpel ist.
Sprachmodelle ändern jedoch wenig an den grundlegenden Regeln zum Schutz von IT-Systemen. Keicher empfiehlt die üblichen Maßnahmen: regelmäßige Sicherheitsupdates, gute Passwörter und Multi-Faktor-Verifizierung. Dies bewahre prinzipiell vor allen Angriffsmethoden – ob von Menschen gesteuert oder von KI. Dem stimmt auch Deeg zu. Rein technisch ändern Sprachmodelle für die defensive Seite nichts – nur der Aufwand ist höher.
Für die Zukunft stellt sich daher eine wichtige Frage: Wie gehen Firmen und Behörden mit den neuen Gefahren um?
Wenn die Verantwortlichen weiterhin akzeptieren, dass IT-Systeme voller Bugs sind und häufig abstürzen, dann werden Sprachmodelle Kriminellen erhebliche Vorteile bieten. Die KI-gestützten Angriffe könnten aber auch als Anreiz dienen, mehr Wert auf sicheren Code und gute Netzwerke zu legen. Dann würde es vielleicht sogar mehr Aufwand kosten, die Systeme anzugreifen, als es in der Zeit vor ChatGPT der Fall war. In diesem Fall könnten Sprachmodelle der Cybersicherheit sogar dienlich sein.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.