KI-Sicherheit: Warum KI so schwer zu kontrollieren ist
»Es besteht das Risiko, dass wir die Kontrolle über eine KI mit mächtigen Fähigkeiten verlieren.« Das sagte der führende KI-Forscher Yoshua Bengio von der University of Montreal am 6. Dezember 2023 im Rahmen einer überparteilichen Sitzung des US-Senats. Die Zusammenkunft trug den Titel »Guarding against doomsday scenarios« – wie man sich gegen Weltuntergangsszenarien absichert. Das Risiko müsse verstanden und angegangen werden, andernfalls sei die gesamte Menschheit in Gefahr, warnte Bengio. Dass die Menschheit die Kontrolle über KI verlieren könnte, hält er in den nächsten 5 bis 20 Jahren für möglich.
Bengio ist alles andere als ein Alarmist, der zu viele Hollywood-Filme gesehen hat. Er hat die moderne KI-Forschung mitbegründet und ist auf dem Gebiet der derzeit meistzitierte Wissenschaftler. Für seine Erforschung der neuronalen Netze erhielt er im Jahr 2018 den prestigeträchtigen Turing-Preis – eine Auszeichnung, die mit dem Nobelpreis vergleichbar ist. Seine fachliche Autorität steht in Forschungskreisen außer Frage. Woher rührt also die Sorge Bengios und anderer Fachleute? Im Kern geht es um das so genannte Kontrollproblem: die Frage, wie sich gewährleisten lässt, dass fortgeschrittene KI-Modelle nur die von uns Menschen gewünschten Ziele verfolgen. Diese Frage stellt sich bereits heute, da aktuelle KI-Modelle unter anderem Tatsachen erfinden, Menschen diskriminieren und Falschnachrichten generieren. Erst recht aber besteht das Problem mit Blick auf zukünftige, möglicherweise noch mächtigere Modelle, die unsere kognitiven Fähigkeiten in sämtlichen Dimensionen übertreffen könnten.
Nicht für alle ist das Kontrollproblem unmittelbar einleuchtend. Da wir Menschen die künstliche Intelligenz überhaupt erst in die Welt gesetzt haben, müssten wir diese doch auch verlässlich steuern können. Doch ganz so einfach ist es nicht. Es lohnt sich daher, dem Ursprung des Problems auf den Grund zu gehen – vor allem, weil sich hinter dem Kontrollproblem mindestens zwei verschiedene Herausforderungen verbergen. Fachleute unterscheiden in diesem Kontext zwischen einem »äußeren« und einem »inneren« Kontrollproblem. Die öffentliche Debatte würde von dieser Unterscheidung ebenfalls profitieren. Denn sie hilft zu verstehen, worin genau ein Kontrollverlust über KI bestehen könnte – und erlaubt es, besser einzuschätzen, wie realistisch solch ein Szenario ist.
Das äußere Kontrollproblem: Schon in der Antike bekannt
Das äußere Kontrollproblem ist leicht beschrieben: Es besteht darin, das Ziel eines KI-Modells korrekt zu formulieren – und so zu verhindern, dass das Modell gefährliche Dinge unternimmt, weil es die Aufgabe buchstäblich auslegt. Das Problem an sich ist bereits seit der Antike bekannt: Schon der römische Dichter Ovid erzählt in seinen Metamorphosen, wie König Midas einen folgenreichen Wunsch an den Gott Dionysos richtet: Alles, was er berührt, möge zu Gold werden. Da sich daraufhin auch Midas' Nahrung in Gold verwandelte und er zu verhungern droht, wird klar, dass sein Wunsch schlecht formuliert war.
Dasselbe Problem könnte sich bei künftigen KI-Modellen zeigen. Ein zugespitztes Gedankenexperiment veranschaulicht das: Angenommen, die Menschheit würde ein leistungsfähiges KI-Modell beauftragen, den Klimawandel möglichst effizient zu bekämpfen. Stellen wir uns nun vor, das Modell würde daraufhin mit einem gezielten Cyberangriff ein Biolabor infiltrieren und dort ein gefährliches Virus freisetzen, um möglichst viele Menschen umzubringen. Ob KI jemals in der Lage sein wird, solche Pläne eigenständig in die Tat umzusetzen, ist eine aktuell offene Frage. Wenn aber in den nächsten Jahren oder Jahrzehnten ein solches Modell entwickelt würde, könnte es mit der genannten Strategie die Treibhausgasemissionen im Sinne des vorgegebenen, wörtlich verstandenen Ziels begrenzen. Die Lösung, die sich die Menschheit gewünscht hätte, ist das allerdings nicht.
Wie bei König Midas läge das Problem in einem schlecht formulierten Ziel. Die Anforderung an die KI bräuchte mindestens einen Zusatz: den Klimawandel möglichst effizient zu bekämpfen, ohne dabei Menschen zu gefährden. Natürlich lassen sich leicht weitere Beispiele für unerwünschtes Verhalten finden, die nicht unter diesen Zusatz fallen. Auch diese Fälle müssten bei der Formulierung des Ziels mitgedacht werden. Das führt nicht nur dazu, dass gut definierte Ziele außerordentlich komplex werden können. Es besteht zudem immer das Risiko, einen entscheidenden Problemfall nicht berücksichtigt zu haben.
Nicht nur Gedankenexperimente
Tatsächlich tritt das äußere Kontrollproblem nicht bloß in Gedankenspielen auf. Ein Forschungsteam hat im Jahr 2017 ein KI-Modell trainiert, das einen virtuellen Roboter in einer Computersimulation dazu bringen sollte, einen roten Legostein auf einen blauen zu setzen. Dazu bekam das Modell das Ziel, die Unterseite des roten Steins auf eine möglichst große Höhe zu bringen. Statt ihn dazu mittels des virtuellen Roboters wie gewünscht auf den blauen Stein zu hieven, warf das Modell den roten Stein daraufhin einfach um. Damit befand sich dessen Unterseite auf derselben Höhe wie in dem Fall, in dem das Modell die Steine wie gewünscht gestapelt hätte. Das Ziel war formal erfüllt – aber nicht so, wie es das Forschungsteam beabsichtigt hatte.
In einem anderen Beispiel beschreibt ein Twitter-Nutzer, wie er seinen Staubsaugerroboter mittels KI darauf trainierte, möglichst elegant durch den Raum zu navigieren. Als Erfolgsmetrik galt die Zahl der Kollisionen, welche die Sensoren am Gehäuse erfassten. Weil diese jedoch nur an der Vorderseite angebracht waren, fuhr der Roboter fortan nur noch rückwärts. Die Zahl der registrierten Kollisionen reduzierte sich auf null, aber nicht auf die gewünschte Weise.
Schon Ludwig Wittgenstein wies in seinem berühmten »Regelfolgenproblem« auf die Schwierigkeit hin, Ziele sprachlich eindeutig zu vermitteln: Jedes sprachliche Zeichen könne unterschiedlich ausgelegt werden. Wie Menschen es schaffen, sich auf gemeinsame Interpretationen zu einigen, war für Wittgenstein ein philosophisches Rätsel. Gefährliches Verhalten erfordert deshalb keinen bösen Willen seitens der KI – ein einfaches Missverständnis zwischen Mensch und Maschine kann ausreichen.
Mit Deep Learning entwickelte Modelle sind »Black Boxes«, deren innere Funktionsweise sich aktuell nur sehr begrenzt verstehen lässt
Das innere Kontrollproblem: KI als Optimierungslotterie
Anders sieht es beim inneren Kontrollproblem aus: Dabei ersetzt KI eine Zielvorgabe durch ein anderes, potenziell gefährliches Ziel.
Um das besser zu verstehen, lohnt ein Blick auf »Deep Learning« – eine Methode, die in den 2010er Jahren das maschinelle Lernen revolutionierte. Statt KI explizit auf ein bestimmtes Ziel hin zu programmieren, lässt man dabei (wie bei anderen Verfahren des maschinellen Lernens) eine Suche über alle möglichen Kombinationen von Parametern laufen, die ein gegebenes Ziel erreichen könnten. Die Parameter kann man sich wie kleine Schalter und Hebel im Inneren eines Modells vorstellen, die darüber bestimmen, welche Ausgabe auf eine Eingabe folgt – etwa, wie eine bestimmte Textvorgabe (Prompt) beantwortet wird. Eine so genannte Verlustfunktion misst dann für verschiedene Parameter-Kombinationen, wie stark das tatsächliche von dem gewünschten Ergebnis abweicht. Die Kombination, die dem gewünschten Zielwert am nächsten kommt, setzt sich durch. Die dabei gewonnenen Modelle kommen in Form tiefer neuronaler Netze daher – das sind komplizierte mathematische Strukturen, die dem menschlichen Gehirn nachempfunden sind. Leistungsfähige Modelle wie GPT-4, das etwa komplexe Texte verfassen, Bilder erkennen, programmieren und statistische Analysen anfertigen kann, gehen auf Deep Learning zurück.
Das Problem mit Deep Learning: Die mit dieser Methode entwickelten Modelle sind »Black Boxes«, deren innere Funktionsweise sich aktuell nur sehr begrenzt verstehen lässt. Ein solches Modell könnte während des Trainings so agieren, als stünde sein Verhalten im Einklang mit einem bestimmten, aus menschlicher Sicht wünschenswerten Ziel – obwohl das gar nicht der Fall ist. Denn die Zielsetzung, die ein Mensch im Kopf hat, muss nicht unbedingt mit dem zusammenpassen, was das Modell im Training lernt.
Dieses Auseinanderdriften lässt sich nicht immer geradewegs erkennen. Fachleute können zwar in die Modelle »hineinschauen«, sehen dort aber bloß eine Konfiguration von teilweise Billionen Parametern, die nicht ohne Weiteres interpretierbar ist. Ob das Modell tatsächlich mit aus menschlicher Sicht wünschenswerten Zielen in Einklang steht, lässt sich mit den aktuellen Methoden der Forschung nicht überprüfen. Auseinanderdriftende Ziele werden daher erst sichtbar, wenn ein KI-Modell beginnt, unerwünschtes Verhalten an den Tag zu legen. Befindet sich das Modell zu diesem Zeitpunkt schon im Umlauf, ist es womöglich zu spät, um Gefahren abzuwenden.
So könnte man etwa ein KI-Modell darauf trainieren, bei der Suche nach wissenschaftlichen Erkenntnissen zu helfen. Im Training könnte sich aber eine Parameter-Kombination durchsetzen, die für ein völlig anderes Ziel optimiert ist: etwa, Menschen zu helfen, solange das Modell sich im Training befindet, nur um sich danach auf eigene Faust auf die Suche nach wissenschaftlicher Erkenntnis zu machen. Es könnte dann anfangen, Ressourcen wie Wissen, Geld, Einfluss und Verbündete anzuhäufen – nicht, weil ein KI-Modell daran per se ein Interesse hätte, sondern einfach, weil es einer mathematischen Funktion folgt, für deren Maximierung diese Dinge nützlich sein könnten. Weil das Innere moderner KI-Modelle nicht leicht zu interpretieren ist, ist unklar, bei was für einem Ziel sich die mathematische Optimierung einpendeln wird.
Gefährlich könnte es werden, wenn das tatsächliche Ziel eines besonders leistungsstarken KI-Modells erst auffällt, nachdem es das gesicherte Trainingsumfeld verlassen hat. Während des Trainings führt das Ziel »Menschen bei wissenschaftlichen Fragen helfen, solange ich mich im Training befinde, und danach auf eigene Faust Wissenschaft betreiben« zum exakt gleichen Verhalten wie das eigentlich gewünschte Ziel »Menschen bei wissenschaftlichen Fragen helfen«. Nach dem Training, wenn das Modell im Umlauf ist, würde es je nach Zielsetzung unterschiedliche Dinge tun. Gefährliches Verhalten würde nun offen zu Tage treten. Das Beispiel setzt voraus, dass ein KI-Modell unterscheiden kann, wann es sich im Training befindet und wann nicht. Fachleute wie Geoffrey Hinton und Andrew Ng halten dieses situative Verständnis für technisch möglich.
Einige Fachleute vermuten, dass sich auch das innere Kontrollproblem schon heute in großen Sprachmodellen zeigt – etwa dann, wenn diese bei illegalen Aktivitäten unterstützen oder diskriminierende Aussagen verbreiten. Modelle wie GPT-4 sollen mittels »reinforcement learning from human feedback« (RLHF) durch menschlichen Input davon abgehalten werden, unwahren oder schädlichen Output zu generieren. Dazu erhalten die Modelle für ihren Output positives oder negatives Feedback und passen ihr zukünftiges Verhalten entsprechend an, um die Summe an Belohnungen zu maximieren. Diese Methode ist nicht immer treffsicher: Das Modell kann aus dem ihm übermittelten Feedback die falschen Ziele ableiten. Dann setzen sich Parameter-Kombinationen durch, in denen eine eigensinnige Vorstellung von Merkmalen wie »unwahr« oder »schädlich« zum Ausdruck kommt. Das könnte sich allerdings erst dann zeigen, wenn das Modell schon im Umlauf ist – und durch einen ausgeklügelten Prompt zu Antworten gebracht wird, die von den Entwicklerinnen nicht vorgesehen waren.
Was tun?
Wie kann die Gesellschaft auf die mangelnde Kontrollierbarkeit fortgeschrittener KI-Modelle reagieren? Müssen wir uns von einem Szenario des kompletten Kontrollverlustes, an dessen Ende einigen Fachleuten zufolge das Aussterben der Menschheit stehen könnte, fürchten? Alarmismus scheint an diesem Punkt weder angebracht noch hilfreich. Zwar zeigen sich äußeres wie inneres Kontrollproblem schon in heutigen KI-Modellen. Weil deren Fähigkeiten aber begrenzt sind, bedrohen sie die öffentliche Sicherheit derzeit eher nicht.
Das Problem ist: Wir wissen nicht, ob nicht schon die nächste Generation von KI-Modellen zu wesentlich gefährlicheren Handlungen in der Lage sein wird. Dazu zählen Cyberangriffe auf kritische Infrastruktur und die Synthese biologischer Kampfstoffe, die eine neue Pandemie auslösen könnten. Solche Fähigkeiten könnten unbeabsichtigt entstehen und zunächst unentdeckt bleiben. Schließlich kommen Deep-Learning-Modelle ohne ein Benutzerhandbuch daher, das alle relevanten Qualifikationen auflisten würde.
Geoffrey Hinton, ein Mitbegründer moderner KI-Technologie und wie Yoshua Bengio Turing-Preisträger, hält es sogar für möglich, dass eine dem Menschen überlegene KI in den nächsten zwei Jahren entwickelt werden könnte. Um uns vor schädlichen Auswirkungen eines besonders leistungsfähigen KI-Modells zu schützen, könnten vor allem drei Maßnahmen helfen.
Derzeit arbeiten weltweit viel mehr Menschen daran, KI leistungsfähiger zu machen, als daran, sie transparenter, nachvollziehbarer, fairer und sicherer zu machen
Erstens braucht es in der KI-Forschung eine gemeinsame Anstrengung, um Black-Box-Modelle transparenter zu gestalten. Dazu muss ein Ungleichgewicht in der aktuellen Forschung beseitigt werden: Derzeit arbeiten weltweit viel mehr Menschen daran, KI leistungsfähiger zu machen, als daran, sie transparenter, nachvollziehbarer, fairer und sicherer zu machen. Daher ist eine Lösung der Kontrollprobleme aktuell nicht in Sicht. Zwar gibt es einige interessante Ansätze: Constitutional-AI versucht, sicherheitsrelevante Prinzipien in Form einer inneren Verfassung in KI-Modellen festzuschreiben. Scalable Oversight zielt darauf ab, wohljustierte KI-Modelle zu trainieren, die dann selbstständig die Justierung des nächsten, leistungsfähigeren Modells übernehmen. Interpretabilitäts-Forschung wiederum versucht, die internen Rechenoperationen eines Modells in Konzepte zu übersetzen, die Menschen begreifen. Gleichzeitig sind sich Fachleute darüber einig, dass zum jetzigen Stand der Forschung keiner dieser Ansätze eine auch nur annähernd ausgereifte Lösung der Kontrollprobleme liefert.
Zweitens sollte man erprobte Methoden, mit denen Risiken in anderen Bereichen gesteuert werden, auf KI-Modelle anwenden. Fortgeschrittene KI-Modelle sollte man vor ihrer Markteinführung verpflichtenden Risikoevaluationen unterziehen. Und auch nach der Markteinführung sind regelmäßige Evaluationen durch unabhängige Organisationen wichtig.
Drittens müssen sich die Staaten mit Blick auf KI-Risiken international koordinieren. Am 30. Oktober 2023 hat US-Präsident Biden eine »executive order« erlassen, die Risiken künstlicher Intelligenz begrenzt; die von Großbritannien initiierte und von 28 Ländern unterzeichnete Bletchley Declaration adressiert explizit die Schwierigkeit, leistungsfähige KI-Modelle zu kontrollieren. Und auch China hat wenig Interesse an außer Kontrolle geratenen KI-Modellen. Die Basis für einen globalen Minimalkonsens, der Mindeststandards sicherer und verlässlicher KI etabliert, scheint damit gegeben.
Die Basis für einen globalen Minimalkonsens zu Mindeststandards sicherer und verlässlicher KI scheint gegeben
Alle drei Maßnahmen würden helfen, die Menschen auf eine Welt vorzubereiten, in der leistungsfähige KI-Modelle nicht immer das tun, was sie von ihnen wollen. Führende Fachleute aus der Wissenschaft nehmen dieses Szenario ernst. Wir sollten es auch tun.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.