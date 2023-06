Sortieren wird zum Spiel für die KI

AlphaZero »überlegt«, indem es an jedem Entscheidungspunkt all seine möglichen Züge sowie die möglichen Folgezüge und so weiter betrachtet. Innerhalb dieses Verzweigungsbaums berechnet es dann, welche Spielzüge mit höchster Wahrscheinlichkeit zum Gewinn führen. Aber alle möglichen Verzweigungen zu betrachten, würde länger dauern, als das Universum alt ist. Daher greift es auf eine Art von Intuition zurück, um die Suche zu verfeinern.

Bei jedem Schritt speist das Computerprogramm den aktuellen Spielstand in neuronale Netze ein. Diese lernfähigen Systeme heben dann die erfolgversprechendsten Züge hervor. Was Erfolg verspricht, haben sie während der vorhergehenden Trainingsphase gelernt, indem sie kontinuierlich auf Basis der Spielausgänge aktualisiert wurden. AlphaZero geht dabei auch ungewöhnliche Wege, indem es beispielsweise nicht immer den aktuell am besten bewerteten Zug auswählt, sondern auch andere Optionen in Betracht zieht.

AlphaDev kann eine von vier Aktionsarten durchführen, die es ihm erlauben, Werte zu vergleichen oder zu verschieben und zu einer anderen Stelle im Programm zu springen. Nach jedem Durchlauf versucht es eine Reihe von Listen zu sortieren und erhält eine umso höhere Belohnung, je mehr Elemente in den Listen es korrekt sortiert hat. Es spielt so lange, bis alle Listen perfekt sind oder eine Programmlängenbegrenzung erreicht wird. Dann beginnt es von Neuem, ein Programm zu entwickeln.

Die neuronalen Netzwerke prüften und belohnten die Programme nicht nur mit Blick auf die Richtigkeit, sondern auch auf die Geschwindigkeit. Mankowitz und sein Team brachten dem System bei, abzuschätzen, wie schnell das neu entwickelte Programm ist – entweder anhand der Zahl an Anweisungen oder anhand der Zeit, die es zur Verarbeitung brauchte. Abhängig vom verwendeten Prozessor und der Menge der zu sortierenden Daten arbeiteten die besten Algorithmen von AlphaDev zwischen 4 Prozent und 71 Prozent schneller als ihre von Menschen geschaffenen Pendants. Wenn allerdings die Algorithmen mehrmals hintereinander Listen mit einer Viertelmillion Werten sortieren sollten, verringerte sich die gesamte eingesparte Zeit auf nur ein bis zwei Prozent. Dies lag daran, dass das System nicht alle Teile des Codes optimiert hatte.