AlphaZero:Googles KI erobert Chess and Go in 24 Stunden

Brettspiele (wie Schach) sind ein weithin untersuchtes Feld in der Geschichte der künstlichen Intelligenz. Pioniere wie Turing, Babbage, von Neumann und Shannon entwickelten Theorien, Algorithmen und Hardware zur Analyse und Durchführung von Schachspielen. Und in den letzten Jahren haben wir ähnliche Programme gesehen, die Menschen in viel komplexeren Spielen wie Go und Shogi (japanisches Schach) übertreffen.

Googles Deepmind hat eine phänomenale Erfolgsbilanz, wenn es darum geht, Menschen bei Brettspielen zu schlagen. Im Jahr 2015 war ihr Projekt AlphaGo das erste Computer-Go-Programm, das einen Menschen (einen professionellen Go-Spieler) besiegte. Und jetzt haben sie ein AlphaGo-Programm entwickelt, das das Schachspiel selbst erlernen und in fast 4 Stunden Menschen oder andere Computerprogramme (einschließlich Stockfish und Deep Blue) schlagen kann.

Herkömmliche KI-Programme (von Brettspielen) sind stark auf ihren Anwendungsbereich optimiert und können ohne menschliches Eingreifen nicht auf andere Probleme übertragen werden. Das AlphaZero-Programm hingegen kann in mehreren anspruchsvollen Bereichen übermenschliche Leistungen erbringen. Ohne Vorkenntnisse außer den Spielregeln und ausgehend vom Zufallsspiel erreichte AlphaZero in den Partien Schach, Shogi und Go innerhalb von 24 Stunden ein übermenschliches Spielniveau und besiegte jeweils das weltbeste Programm. Wie haben sie das gemacht und was sind die genauen Ergebnisse? Finden wir es heraus.

Methodik

Im Oktober 2017 gab Deepmind bekannt, dass ihr AlphaGo Zero-Algorithmus mithilfe eines Deep Convolution Neural Network und ausschließlich durch Reinforcement Learning trainiert wurde und eine übermenschliche Leistung erzielt hat. Ingenieure haben den gleichen Ansatz verwendet, um einen generischen Algorithmus namens AlphaZero zu entwickeln, der die domänenspezifischen Erweiterungen und das handgefertigte Wissen herkömmlicher Spielalgorithmen durch tiefe neuronale Netze ersetzt und ein Tabula Rasa-Lernalgorithmus zur Verstärkung .

AlphaZero verwendet Allzweck-MCTS (Monte-Carlo Tree Search)-Algorithmus statt Alpha-Beta-Suche. Es lernt Wertschätzungen und Bewegungswahrscheinlichkeiten, indem es gegen sich selbst spielt, und verwendet dann die gelernten Informationen als Leitfaden für seine Suche.

Wie es sich vom AlphaGo Zero-Algorithmus unterscheidet

Der AlphaGo Zero-Algorithmus schätzt und optimiert die Gewinnwahrscheinlichkeit unter Berücksichtigung binärer Gewinn- oder Verlustergebnisse. AlphaZero hingegen schätzt und optimiert das erwartete Ergebnis unter Berücksichtigung von Unentschieden oder anderen möglichen Ergebnissen.

Die Go-Spielregeln sind invariant gegenüber Reflexion und Rotation. Diese Tatsache wird sowohl in AlphaGo als auch in seiner erweiterten Version AlphaGo Zero auf zwei Arten sehr gut ausgenutzt.

Erweitern Sie die Trainingsdaten, indem Sie 8 Symmetrien für jede Position erstellen.
Transformieren Sie die Position über eine zufällig ausgewählte Reflexion oder Rotation, bevor sie vom neuronalen Netzwerk im MCTS-Algorithmus berechnet wird, sodass die Berechnung über verschiedene Verzerrungen gemittelt wird.

Bei Schach und Shogi sind die Regeln asymmetrisch und man kann nicht generell von Symmetrien ausgehen. In AlphaZero werden die Trainingsdaten nicht erweitert und die Board-Position wird während MCTS nicht verändert.

AlphaGo Zero verwendet den besten Spieler aus früheren Iterationen, um ein eigenständiges Spiel zu erstellen. Nach Abschluss jeder Iteration wird die Leistung des neuen Spielers im Vergleich zum besten Spieler bewertet. Wenn es mit einem Vorsprung von 55 Prozent gewonnen wird, wird der beste Spieler ersetzt und der neue Spieler generiert weitere Selbstspielspiele. AlphaZero unterhält jedoch ein einzelnes neuronales Netzwerk (das kontinuierlich aktualisiert wird) und pausiert nicht, bis eine Iteration abgeschlossen ist.

AlphaZero-Optimierung und -Schulung

AlphaZero verwendet Hyperparameter für alle Spiele ohne spielspezifische Optimierung. Um die Erkundung sicherzustellen, ist ein Rauschfaktor integriert, der proportional zur Anzahl der legitimen Züge für diese Art von Spiel skaliert wird.

Wie bei AlphaGo Zero wird der Spielbrettzustand durch räumliche Ebenen kodiert und die Aktionen werden entweder durch räumliche Ebenen oder einen flachen Vektor kodiert, basierend auf den Grundregeln jedes Spiels.

Die Entwickler haben AlphaZero auf Schach, Shogi und Go angewendet. Für alle drei Spiele wurden die gleiche Netzwerkarchitektur, dieselben Hyperparameter und Einstellungen verwendet. Für jedes Spiel wird eine einzelne Instanz des Algorithmus trainiert. Ausgehend von zufällig initialisierten Parametern wurde ein Training für 700.000 Schritte durchgeführt, wobei 5.000 Tensor-Verarbeitungseinheiten der ersten Generation zum Erstellen von Selbstspielspielen und 64 Tensor-Verarbeitungseinheiten der zweiten Generation zum Trainieren der neuronalen Netze verwendet wurden.

Referenz: arxiv.org

Ergebnisse

Wie Sie in der Abbildung sehen können, übertraf AlphaZero Stockfish nach 300.000 Schritten (nach 4 Stunden) im Schach; es übertraf Elmo in 110.000 Schritten (innerhalb von 2 Stunden); und es übertraf AlphaGo Lee in 165.000 Schritten (nach 8 Stunden).

Die vollständig trainierten Instanzen (3 Tage lang trainiert) von AlphaZero wurden gegen AlphaGo Zero, Elmo und Stockfish getestet und spielten 100 Spiele mit einer Zeitrate von 1 Minute pro Zug. Die Ergebnisse waren ziemlich beeindruckend (siehe Tabelle unten).

AlphaGo Zero und AlphaZero verwendeten eine einzelne Maschine mit 4 Tensor-Verarbeitungseinheiten, Elmo und Stockfish erzielten ihre beste Leistung mit 64 Threads und 1 GB Hash-Größe. AlphaZero besiegte sie alle und verlor 8 Spiele gegen Elmo und keines gegen Stockfish.

Google-Entwickler haben auch die Leistung der MCTS-Suche in AlphaZero untersucht. Es sucht nach 40.000 Stellungen pro Sekunde beim Shogi und 80.000 beim Schach, verglichen mit 35.000.000 bei Elmo und 70.000.000 bei Stockfish. AlphaZero nutzt sein tiefes neuronales Netzwerk, um sich selektiver auf die vielversprechendsten Optionen zu konzentrieren, oder man könnte sagen, einen menschenähnlicheren Ansatz.

Lesen Sie:Die 15 besten Schach-Engines basierend auf ihren Bewertungen

Obwohl AlphaZero noch in den Kinderschuhen steckt, stellt es einen wichtigen Schritt in Richtung seines Ziels dar. Wenn ähnliche Ansätze auf andere strukturierte Probleme wie die Proteinfaltung, die Entdeckung neuer Materialien oder die Senkung des Energieverbrauchs angewendet werden können, haben die Ergebnisse das Potenzial, unsere Zukunft positiv zu beeinflussen.

Rekordverdächtiger 53-Qubit-Quantensimulator vorgestellt Japan bringt Quantencomputer-Prototyp auf den Markt, der 100-mal schneller ist als aktuelle Supercomputer

Industrietechnik

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik