Roboter-Geschicklichkeit: Binnen hundert Jahren gelernt
Seit Jahrzehnten arbeiten sich Robotiker daran ab, die Geschicklichkeit der menschlichen Hand auf einen Roboter zu übertragen – mit meist nur begrenztem Erfolg. Ein viel versprechender Weg, doch noch menschliches Niveau zu erreichen, besteht darin, auf modernste Maschinenlernverfahren zu vertrauen: Der Roboter soll die Bewegungssteuerung durch Versuch und Irrtum selbst erlernen.
Wie das klappen könnte, erläutern nun Wissenschaftler des gemeinnützigen KI-Forschungsverbunds OpenAI in San Francisco auf ihrer Website und in einer Veröffentlichung auf dem Preprint-Server arXiv. Ihre Roboterhand lernte, einen Würfel so mit den Fingern zu drehen und zu wenden, dass zuverlässig eine vorgegebene Seite an einer bestimmten Position landete. Die Ergebnisse sind durchaus beeindruckend. Ganz von selbst eignete sich ihr Roboter namens Dactyl sogar typisch menschliche Greifbewegungen wie den Pinzettengriff an.
Wie sie in ihrer Dokumentation verraten, benötigte das System dafür eine Lernphase, die 100 Jahre gedauert hätte, wenn der Roboter die Bewegungen in Echtzeit ausgeführt hätte. Dank eines Hochleistungscomputers mit über 6000 Prozessoren dauerte der Lernvorgang in Wirklichkeit jedoch nur 50 Stunden. Zum Aufbau ihres Systems bedienten sie sich aus dem Sortiment aktueller Deep-Learning-Netzwerkarchitekturen und dem Lernverfahren Reinforcement Learning.
Mit ihrer Forschungsarbeit wollen sie ein grundlegendes Problem solcher selbst lernenden Ansätze lösen: die Frage, ob man besser den echten Roboter, so wie er im Labor steht, lernen lässt oder ob man den Lernvorgang in eine virtuelle Umgebung verlagert. Eine Simulation ist erheblich schneller, aber anspruchsvoll, was den Nachbau der physikalischen Bedingungen angeht. Macht man dabei Fehler, bewältigt der Roboter im ungünstigsten Fall die Aufgabe zwar perfekt in der virtuellen Welt, in der echten aber überhaupt nicht.
Die OpenAI-Forscher benutzten darum bewusst eine vergleichsweise oberflächliche Physiksimulation, die beispielsweise das Eindellen der Gummifingerkuppen beim Kontakt mit dem Würfel außen vorließ. Gleichzeitig variierten sie alle enthaltenen physikalischen Parameter nach dem Zufallsprinzip. Der Computer war dadurch gezwungen, den Würfel unter einer großen Bandbreite von Bedingungen beherrschen zu lernen. Das verlängerte zwar den Lernvorgang erheblich. Im Endeffekt führte es aber dazu, dass die in der virtuellen Welt erworbene Fingerfertigkeit ohne weitere Anpassungen auf den echten Roboter übertragbar war.
Die Arbeit demonstriert, dass moderne Lernverfahren selbst schwierigste Steuerungsprobleme knacken können, wenn man ausreichend Rechenleistung bereithält. Zur Art und Weise, wie Mensch oder Tier Gegenstände manipulieren und zu manipulieren lernen, besteht dann allerdings nur wenig Ähnlichkeit – der OpenAI-Roboter benötigte nicht einmal Tastgefühl in den Fingerkuppen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.