Die nächste KI-Revolution: Wie Maschinen die Welt begreifen sollen

Nach Deep Learning und großen Sprachmodellen rückt nun die physische Realität in den Fokus der KI-Forschung. Roboter sollen lernen, die Folgen ihrer Handlungen vorherzusagen, und so ein echtes Weltmodell entwickeln.

von Eva Wolfangel

Eine futuristische 3D-Darstellung zeigt eine Roboterhand, die eine leuchtende, transparente Weltkugel hält. Der Hintergrund ist dunkel und unscharf, was den Fokus auf die Hand und die Kugel verstärkt. — © sankai / Getty Images / iStock (Ausschnitt)
Kann man die Welt nur erfassen, indem man sie anfasst?

Nanu, ein Baby auf den Slides? Das kommt nicht alle Tage vor im Center of Mathematical Sciences and Applications an der Harvard University. Aber Yann LeCun ist hier auf der Konferenz über Geometrie im maschinellen Lernen der Starredner, und wenn sich der Turing-Preisträger zur Zukunft der maschinellen Intelligenz äußert, dann will das niemand verpassen. Daraus macht der Veranstalter bei der Vorstellung keinen Hehl: »Alle anderen Speaker haben zugesagt, nachdem er zugesagt hatte.« Eine Frage steht im Zentrum von LeCuns aktueller Forschung: Wie kann KI ein echtes Verständnis der Welt erlangen, sodass sie für alle denkbaren Aufgaben zuverlässig funktioniert?

LeCun ist schon lange skeptisch, ob das mit großen Sprachmodellen möglich ist. Ende 2025 hat er bei Meta gekündigt, wo er immerhin KI-Chefwissenschaftler war. Auf der Basis von Sprache zum Weltmodell? »Das wird nicht passieren«, prophezeit er in Harvard und verdeutlicht das anhand seiner Grafik mit dem Baby: »Menschen und Tiere haben mentale Modelle der Welt.« Kleine Kinder etwa führten schon mit einem Jahr rationale, zielgerichtete Handlungen aus.

Den aktuellen Architekturen des maschinellen Lernens hingegen fehle etwas Großes: Während jeder Zehnjährige den Esstisch ab- und die Spülmaschine einräumen könne, »ganz ohne zu lernen« – zero-shot, wie es in der Forschungssprache des maschinellen Lernens heißt, einfach auf Basis von Anweisungen –, und jede 17-Jährige nach 20 Fahrstunden Auto fahren könne, gebe es bis heute kein vollständig autonomes Fahren und keine Haushaltsroboter. »Wir rennen immer wieder in Moravecs Paradoxon«, stellt LeCun fest. Dieses sagt aus, dass viele Aufgaben, die für Menschen einfach sind, Maschinen schwerfallen, und umgekehrt.

Laut Yann LeCun liegt das daran, dass künstliche Intelligenz kein Modell der Welt hat. Und das könne sie auf der Basis von reiner Sprache oder Bildern aus dem Internet nicht erlernen. Das klingt einleuchtend. Aber recht lange war die Welt der Forschung und der KI-Konzerne durchaus optimistisch, dass sich in großen Sprachmodellen gerade etwas entwickelt, was diesem Weltmodell gleichkommt. Die Hoffnung: Sie könnten allein mit Sprachdaten ein Verständnis davon entwickeln, was die Welt ausmacht.

Große Sprachmodelle werden heute quasi mit dem gesamten Internet trainiert. Darin finden sich unzählige Physikvorlesungen und Fachartikel zu Experimenten und Beschreibungen der realen Welt. Immer wieder gingen beeindruckende Beispiele durch die Medien, die scheinbar zeigten, dass in den Modellen ein tieferes Verständnis für Physik steckte.

Erfolg allein beweist noch nichts

Aber Kritikerinnen wie die US-Informatikerin Melanie Mitchell waren schon immer skeptisch. Denn auch wenn Chatbots erstaunlich oft zum Beispiel physische Objekte in der richtigen Reihenfolge stapelten (also angaben, in welcher Reihenfolge sie aufeinandergesetzt werden sollten, um einen stabilen Turm zu bilden), »verstehen sie noch lange nicht, was das bedeutet«. Nur weil das ein Programm in einem Fall richtig mache, sei noch lange nicht klar, dass es das dahinterliegende Konzept begreife – doch das wiederum ist die Grundlage dafür, dass es robust und zuverlässig funktioniert. »Das sind immer Einzelbeispiele. Sobald man das anders formuliert, merkt man, dass das Modell nichts verstanden hat.« In ihrem Beispiel schlug das Modell vor, eine Zahnbürste in Pudding zu stecken, darauf einen Marshmallow zu balancieren und auf diesem ein Glas Wasser. Jeder Mensch kann sich vorstellen, dass das nicht funktionieren kann.

Zwar werden die Fehler weniger. Aber es zeigt sich, dass die statistische Methode – die hinter generativer KI steckt – ihre Grenzen hat.

Mittlerweile dreht sich die Diskussion. Immer mehr Stimmen werden laut, die ebenfalls anzweifeln, ob große Sprachmodelle ein Weltverständnis entwickeln können. Eine der prominentesten Stimmen ist die von Yann LeCun. Er hat seine Karriere bei Meta aufgegeben, weil er überzeugt ist, dass maschinelles Lernen eine andere Architektur braucht als jene Transformer-Modelle, die hinter großen Sprachmodellen liegen.

»Wir werden nie zu einer Intelligenz auf menschlichem Niveau kommen, wenn wir nur auf Textdaten trainieren«Yann LeCun, Computerwissenschaftler und Turing-Preisträger

»Wir werden nie zu einer Intelligenz auf menschlichem Niveau kommen, wenn wir nur auf Textdaten trainieren«, sagt LeCun im Vortrag. Keines der großen Techunternehmen habe eine Idee, wie man Roboter wirklich nützlich mache, in dem Sinne, dass sie die Welt um sich herum begreifen und flexibel zur jeweiligen Situation passend agieren. »Das ist eine Chance für die Forschung, den Fortschritt in der künstlichen Intelligenz voranzutreiben.«

Durch Beobachtung zur Einsicht

LeCun zufolge basiert die bisherige Architektur auf den falschen Grundlagen. Ein Modell, das darauf trainiert wurde, den nächsten Token (also Wörter, Silben, Zeichenketten) vorherzusagen, könne kein Weltmodell entwickeln. »Es fehlt ein echtes Verständnis für Konzepte.« Die alten Astronomen beispielsweise hätten herleiten können, wie sich Planeten bewegen, nachdem sie das System durchschaut hatten. »Man braucht dafür nicht jedes Detail zu verstehen«, sagt er. Vielmehr ist es entscheidend, zu begreifen, welches davon relevant ist. »Man muss die richtigen abstrakten Repräsentationen finden, sodass man Vorhersagen machen kann.«

Der erste Schritt sind weitere Trainingsdaten, in LeCuns Fall Videos: In seinem Projekt Joint Embedding Predictive Architecture (JEPA) hat er ein Modell auf einer Million Stunden Videos aus dem Internet trainiert. Darunter liegt eine Architektur, auf deren Basis das Modell Repräsentationen lernt. »Es erfasst die dahinterliegenden Regeln der Welt durch Beobachtung«, sagt LeCun, »so wie ein Baby über die Schwerkraft lernt.« Das Modell lernt vorherzusagen, was als Nächstes passiert, und zwar nicht wie generative KI auf der Ebene von Pixeln oder Token, sondern in Form von Konzepten.

Grundlage sind grob gesagt sogenannte Energiemodelle, von denen eines die Vorhersage des anderen bewertet: Je näher die Vorhersage an das kommt, was im Video tatsächlich passiert, desto niedriger ist der Vorhersagefehler. Das ist im Prinzip das Ziel – allerdings besteht die Gefahr, dass die Netze gewissermaßen auswendig lernen, anstatt Konzepte zu verstehen. In der Fachsprache heißt das Overfitting. Das gut zu lösen, sei eine offene Forschungsfrage, konstatiert LeCun.

Neben einer anderen Architektur müssten weitere Trainingsdaten ergänzt werden, zum Beispiel von Sensoren. Die KI muss in der physischen Welt trainiert werden. »Nach der Revolution des Deep Learning und der Revolution der großen Sprachmodelle kommt jetzt die Revolution der physischen KI«, sagt LeCun in Harvard. Das Ziel aus seiner Sicht: KI soll lernen, die Konsequenzen der eigenen Handlung vorherzusagen. Das heißt, wenn der Roboterarm einen Ball fallen lässt, soll das System bereits vorher wissen, dass dieser zu Boden fallen wird. Nur so könne ein Modell auch langfristig planen – und das sei die Grundlage für nützliche Roboter.

Vorhersage und Anpassung

Wie künstliche Intelligenz Physik lernen kann, darüber streitet das Fach schon lange. In der Informatik tauchen nun wieder Babys auf Folien auf; ein Zeichen dafür, dass ein Vorschlag Aufwind bekommt, der schon in den 1990er-Jahren diskutiert wurde, aber lange belächelt wurde – gerade im maschinellen Lernen: Physik lässt sich am besten begreifen, wenn man sie wortwörtlich begreifen kann. Was passiert, wenn man einen Ball fallen lässt, lernen Kinder, indem sie es ausprobieren. Auch David Silver von Google DeepMind zeigt bei aktuellen Vorträgen Bilder von Babys und sagt eine »Ära der Erfahrung« voraus, bei der KI-Agenten sich durch die Interaktion mit ihrer Umgebung verbessern.

»Statistische Zusammenhänge allein reichen nicht aus für Intelligenz«Verena Hafner, Informatikerin

»Die Forschung im maschinellen Lernen merkt jetzt, dass statistische Zusammenhänge allein nicht ausreichen für Intelligenz«, sagt Verena Hafner, Professorin für Adaptive Systeme an der Berliner Humboldt-Universität. Sie beschäftigt sich seit vielen Jahren damit, wie Lernen in künstlichen Systemen funktionieren kann, und ist überzeugt: Es braucht physische Kausalitäten. »Verkörperte Intelligenz ist zentral, und für Menschen ist es wichtig, auf dieser Basis die Konsequenzen des eigenen Handelns vorhersagen zu können.« Hafner schiebt ihre Kaffeetasse auf dem Tisch hin und her. »Ich möchte die Tasse jetzt greifen, und mein Gehirn antizipiert ständig, wo gleich meine Hand sein wird.« So funktioniere verkörpertes Lernen. Auch sie spricht vom Vorhersagefehler: »Wir machen ständig Vorhersagen und passen unsere Handlungen so an, dass diese damit übereinstimmen.« Dadurch gelinge die Bewegung ohne lange Vorausplanung perfekt.

Aber die große Frage ist, ob das allein auch für langfristige Planung reicht. Ein typisches Beispiel dafür ist die Entwicklung von Werkzeugen: Man muss eine größere Vision haben, was man später mit dem Werkzeug machen will. »Roboter brauchen eine Metakognition, um Tools zu entwickeln«, sagt Hafner. Im EU-Projekt Metatool arbeitet sie mit einem interdisziplinären Team an dieser Frage. »Man kann ein Werkzeug nicht aus dem Nichts entwickeln«, stellt sie fest, »wir glauben, dass ›meta learning‹ dafür essenziell ist.« Dieses Denken über das Denken sei das, was auch die Menschheit vorangebracht habe. Zentral seien dabei sowohl ein Weltmodell als auch das Wissen über die eigenen sensomotorischen Fähigkeiten.

Selbstbewusstsein für Roboter

Dafür wiederum brauche es, so Hafner, eine Art Selbstbewusstsein, sie nennt das »minimal self«. Wie ein solches Selbstbewusstsein für Roboter aussehen könnte, daran arbeitet sie gerade mit einem Team aus der Robotik und der Psychologie. Mindestens sei dafür ein »sense of agency« nötig, also ein Bewusstsein über die eigene Handlungsfähigkeit, sowie ein »sense of body ownership«, also das Wissen darüber, was zum eigenen Körper gehört und was nicht.

Dieses Selbstbewusstsein ist nicht zu verwechseln mit dem menschlichen Selbst, denn zu diesem gehöre vieles mehr. Das minimale Selbst aber sei relevant für nützliche Roboter, sagt Hafner, und das entwickle sich nicht aus Erzählungen, sondern nur aus eigenen Erfahrungen. »Maschinen müssen aus echten Daten lernen, die sie selbst generiert haben.« Aktives Lernen bedeute eben nicht, Zusammenhänge aus Textdaten zu extrahieren oder aus Datenbanken mit Millionen Katzenbildern. »Sondern: Ich schaue mir eine Katze an und streichle sie, und dann macht sie vielleicht miau!« Genau diese Erfahrungen seien wichtig für sogenannte Sensorimotor Contingencies (deutsch etwa sensomotorische Kontingenzen), ein Konzept aus der Wahrnehmungsforschung: So erfährt das Gehirn die Zusammenhänge zwischen Handlung und Sinneseindruck. Auf dieser Basis kann KI lernen, die Konsequenz ihrer eigenen Handlung vorherzusagen und ein besseres Verständnis der Welt zu bekommen.

Wie weit physische KI ganz ohne diese Fähigkeit und auch ohne neue Architektur kommt, zeigen allerdings die Projekte des US-Start-ups »Physical Intelligence« (PI). Es hat unter anderem Roboter gebaut, die Wäsche zusammenlegen, den Tisch abräumen oder Pappschachteln falten. Die Videos sind ziemlich beeindruckend: Da fährt ein Roboter zwischen Waschmaschine und Tisch hin und her, wirft die Wäsche auf einen Haufen und faltet T-Shirts relativ ordentlich, um sie dann zu stapeln, sodass sie in den Schrank passen. Immer mal wieder greift der Roboter mit seiner Greifzange ins Leere, aber dann versucht er es einfach wieder. »Die Roboter lernen anders als vorher«, sagt Danny Driess, Wissenschaftler bei PI, im Interview, »sie machen Fehler und korrigieren sich«.

Android als Haushaltshelfer | Humanoide Roboter, die wie in dieser Illustration geschickt Wäsche zusammenlegen, sind bislang Zukunftsmusik. Heutige Prototypen beispielsweise des US-Start-ups »Physical Intelligence« bestehen noch aus zwei Roboterarmen, die an einem Tisch fest montiert sind.

Viele Daten, aber kaum die richtigen

Das Neue am Ansatz von PI im Vergleich zu traditioneller Robotik sind sogenannte Vision-Language-Action-Models (VLAs). Dabei handelt es sich um generative Sprachmodelle, die mit dem Input einer Kamera verknüpft sind sowie den Fähigkeiten eines Roboters, zum Beispiel Dinge zu greifen. Auch hier im Interview kommt das Baby als eines der ersten Themen zur Sprache: Physische künstliche Intelligenz ist laut Driess eine Herausforderung im Vergleich zu großen Sprachmodellen und bisheriger generativer KI, weil die richtigen Trainingsdaten fehlen. Das Internet ist voller Sprachdaten wie Bücher, Literatur und Anleitungen. Währenddessen sind Daten rund um das Interagieren in der physischen Welt selten. Es gebe zwar viele Videos, sagt Driess, aber der Blick auf die Welt auf Basis dieser Videos ist mehr als unvollständig. »Wir teilen vieles im Internet, aber nicht, wie wir als Baby lernen.«

Dazu komme, dass bisher unklar sei, was eigentlich die relevanten Daten dafür seien, dass künstliche Intelligenz sich in der physischen Welt zurechtfinde. Das Feld um VLAs ist noch zu neu. Bei PI habe man deshalb einfach das genommen, was schon da ist, erklärt Driess’ Kollege Karl Pertsch: ein Sprachmodell, Kameradaten und eine grundlegende Robotersteuerung. Dabei habe sich gezeigt, dass KI auch mit den unvollständigen Videodaten erstaunlich weit komme.

Jede halbe Sekunde sage das Modell vorher, was es in der folgenden Sekunde tun müsse, erklärt Driess. Die Folgen seiner eigenen Handlung simuliere es nicht. »Das würde deutlich länger dauern.« Außerdem durchdenke das Sprachmodell die Tätigkeit nicht, und ebenso wenig, was schiefgegangen ist, wenn ein Greifer zum Beispiel das Wäschestück wieder verliert. Es steckt also weniger Intelligenz im Modell, als man vielleicht vermuten würde, wenn man dem Roboter beim Wäschefalten zuschaut. Er korrigiert genau genommen keine Fehler, sondern setzt jede halbe Sekunde neu an bei dem, was er in diesem Moment sieht. »Es ist aktuell eher wie ein Reflex«, resümiert Pertsch. Der Roboter leitet den jeweils nächsten Schritt ab, indem er berechnet, wie er seinem Ziel näherkommt: die Wäsche so zu falten, wie er es aus Demovideos gelernt hat.

Das Ziel sei durchaus allgemeine künstliche Intelligenz (Artificial General Intelligence, AGI), sagt Driess. Also die Fähigkeit von Maschinen, sich in jeder Situation in der physischen Welt zurechtzufinden. Nur: Wie soll der Roboter auf diese Weise lernen, die physische Welt wirklich zu verstehen? Ist die Forderung von LeCun, dass KI dafür zumindest auch die Folgen des eigenen Handelns vorhersagen kann, nicht die Basis dafür?

»Es wird schwerer und schwerer werden, echtes Verständnis von dem zu unterscheiden, was die Roboter machen«Karl Pertsch, Robotikforscher

Für längerfristige Planungen wie das Entwickeln von Werkzeugen und deren Benutzung sei dies wohl nötig, räumt Pertsch ein, aber gleichzeitig funktioniere das System auf dieser Basis schon erstaunlich gut. Und auch wenn man derzeit sicher nicht behaupten könne, dass der Roboter versteht, was er tut, werde die Grenze in Zukunft verschwimmen: »Es wird schwerer und schwerer werden, echtes Verständnis von dem zu unterscheiden, was die Roboter machen.« Denn der Roboter lerne dazu, einerseits durch menschliches Feedback, wie gut er seine jeweilige Aufgabe erfüllt hat, und zweitens perspektivisch außerdem von den eigenen Erfahrungen in der physischen Welt. Das sei die Grundlage für generelle Intelligenz, sagt Driess und ergänzt grinsend: »So gesehen sind alle anderen Probleme des maschinellen Lernens Unterprobleme der Robotik.«

Verallgemeinerung ist die große Hürde auf dem Weg zu AGI, da ist sich die Forschung einig. Umso interessanter ist es, wie gut die Roboter von PI nach eigenen Angaben bereits generalisieren können. Immerhin ist die Basis ihres Modells verhältnismäßig dünn, wenn man bedenkt, dass sie aktuell weder haptische Informationen noch Simulationen ihrer eigenen Handlungen nutzen. Damit können sich die Roboter von PI sogar teilweise in unbekannten Räumen zurechtfinden, erklärt Driess: Man habe sie schon in fremde Häuser mitgenommen. Sie machten dort Betten, legten Wäsche zusammen und räumten Geschirr in der Küche auf. »Beim 101. Haus war die Leistung so gut wie in einem bekannten Haus.« Das heißt, die Roboter hatten nach 100 Häusern, bei denen sie aus dem Feedback über ihre eigene Leistung lernten, bereits so gut verallgemeinert, dass sie sich in neuen Umgebungen ähnlich sicher zurechtfanden wie in bekannten.

Es ist nicht ausgemacht, dass die Roboter weiterhin eine so steile Lernkurve haben. »Die Nachfrage nach solchen Technologien ist enorm«, sagt Driess, »aber es ist noch Forschung.« Wann also endlich ein Roboter bei uns zu Hause die Wäsche faltet, hängt davon ab, ob dieser Ansatz wirklich skaliert – oder ob Forscher wie Yann LeCun eine neue Architektur entwickeln, die tatsächlich zu einem tieferen Verständnis der Welt führt. Die nächste Phase der künstlichen Intelligenz könnte dann mit Robotern beginnen, die Dinge fallen lassen.