Künstliche Intelligenz: Schlau, schlauer, am schlausten: AlphaGo Zero

Das asiatische Spiel Go ist ungeheuer komplex. Die künstliche Intelligenz AlphaGo hat im Jahr 2016 zum ersten Mal einen Menschen darin besiegt. Nun jedoch muss sie sich selbst geschlagen geben.

von Janosch Deeg

Go-Spiel — © DeepMind Technologies Ltd (Ausschnitt)

Frühjahr 2016: Die künstliche Intelligenz (KI) AlphaGo war bereit für das lange erwartete Duell; im Strategiespiel Go trat sie mehrmals gegen den weltbesten Spieler Lee Sedol aus Korea an. Das Ergebnis fiel mehr als deutlich aus: Der schlaue Algorithmus, der ähnlich wie ein neuronales Netzwerk funktioniert, gewann vier von fünf Duellen. KI schlägt Mensch (hier ein Bericht nach der ersten Partie). Nun jedoch kann das Programm AlphaGo einpacken. Seine Bilanz gegen einen neuen Gegner ist erheblich schlechter als die von Sedol, 0 Siegen stehen 100 Niederlagen gegenüber. Nein, es war (leider) kein Mensch, der die heldenhafte Tat vollbrachte und AlphaGo in die Knie zwang. Die KI verlor gegen ihren Nachfolger AlphaGo Zero. Das berichten nun Computerspezialisten der Google-Tochter DeepMind im Fachjournal "Nature".

Demis Hassabis | Demis Hassabis ist der Gründer von DeepMind und Chefentwickler der künstlichen Intelligenzen AlphaGo und AlphaGo Zero.

Das jahrtausendealte asiatische Spiel Go ist verglichen mit Schach deutlich komplexer, da die Möglichkeiten der Züge ungemein höher sind: Es gibt mehr Brettkonfigurationen als Atome im uns bekannten Teil des Universums. Deshalb waren alle bisherigen KI-Programme daran gescheitert, fortgeschrittene menschliche Spieler zu bezwingen – bis AlphaGo kam, lernte und siegte. Gleich den ersten Erfolg gegen den Champion Sedol kommentierte der Chefentwickler Demis Hassabis mit dem Satz: "Wir sind auf dem Mond gelandet." Das macht deutlich, was dieser Erfolg für ihn und viele andere Computerspezialisten bedeutete. Bis dato hatte das Spiel gewissermaßen als Beweis dafür gegolten, dass die KI dem Menschen nicht überlegen ist. Ob sich daran nun tatsächlich etwas geändert hat, darf natürlich weiterhin bezweifelt werden.

Gewiss aber ist, dass das spielende Programm nun noch schlauer geworden ist. Die neue Version nutzt im Gegensatz zu der vorherigen nur noch eine einzige Technik aus der KI-Forschung, das so genannte "Reinforcement Learning", zu deutsch so viel wie "verstärkendes Lernen". Das Programm startet dabei gewissermaßen, ohne irgendetwas zu wissen. Die einzige Vorgabe, welche die Entwickler einprogrammieren, ist eine Verstärkung des Verhaltens, das zu einem gewünschten Ergebnis führt – in diesem Fall zu einer Vergrößerung der beherrschten Gebiete auf dem Spielfeld. Denn letztlich führt eine solche Strategie zum Sieg, wenn man sie besser umsetzt als der Gegner. "Verstärkendes Lernen" ist also eine Technik, mit der sich ein gewünschtes Verhalten mittels einer Belohnungstaktik antrainieren lässt.

Die Vorgängerversion hingegen braucht zusätzlich zu dieser Lernmethode noch das so genannte "Supervised Learning", also ein "angeleitetes Lernen". Dabei bekommt das Programm vereinfacht gesagt Anweisungen. Die können etwa beinhalten, was eine gute Strategie ist. In der Regel sieht das so aus, dass das Programm Millionen von Partien menschlicher Spieler analysieren darf und so lernen kann, welche Taktik zum Erfolg führt.

AlphaGo Zero bekommt hingegen keine Leitlinie, keine Daten. Es lernt nur aus Spielen gegen sich selbst. Zu Beginn macht es noch zufällige Bewegungen, die mit zunehmender Anzahl von Partien jedoch immer mehr Sinn ergeben. Um schließlich seinen Vorgänger zu schlagen, benötigte das Programm lediglich ein paar Trainingstage, in denen es allerdings fast fünf Millionen Spiele gegen sich selbst absolvierte. Die KI entdeckte dabei selbstständig einige der gleichen Spielprinzipien, die Menschen entwickelt hatten – und eben auch noch weitere, die schließlich den Unterschied zu der Vorgängerversion ausmachten. Das Fazit daraus: Eine KI, die sich ganz eigenständig trainiert, ist offenbar am Ende schlauer als eine, die zusätzlich von menschlichen Strategien lernt. Das wirklich Wichtige dieser Entwicklung ist indes aber etwas anderes. Die KI AlphaGo Zero kann sich im Prinzip alle möglichen Dinge selbst beibringen; sie ist nicht mehr limitiert auf ein spezifisches Problem oder Ziel.