最新で最強、AlphaGo Zero の解説 | フューチャー技術ブログ

はじめに

こんにちは。データサイエンスチームの李(碩)です。
以前、古典的ゲームAIを用いたAlphaGo解説に紹介したAlphaGoの最新バージョンが2017年10月19日に発表されました。

この記事では、最新のAlphaGo、AlphaGo Zero の仕組みについて紹介です。

本文を直接読みたい方はスライドをご覧になってください。

AlphaGo Zero 解説 from suckgeun lee

AlphaGo のバージョン

AlphaGo には下記の4つのバージョンがあります。

1. AlphaGo Fan
  ・2015年10月にヨーロッパの囲碁チャンピオンFanに勝利
2. AlphaGo Lee
  ・2016年3月に過去世界最強と呼ばれたイ・セドルに勝利
3. AlphaGo Master
  ・2017年1月、オンラインで世界最強の棋士たちに60:0で勝利
4. AlphaGo Zero
  ・2017年10月に論文発表

前回の古典的ゲームAIを用いたAlphaGo解説に紹介したAlphaGoのバージョンは「AlphaGo Fan」になります。AlphaGo ZeroはAlphaGo Fanとアーキテクチャレベルから大きく異なります。Fanの場合、2つのディープニューラルネットワーク(DNN)で構成され、その他にも結構複雑なアーキテクチャになっています。しかし、Zeroの場合は1つのDNNだけで、学習プロセスもすごく簡単になりました。簡単になったけど、学習は早く、性能も強力になったのです。

AlphaGo Zeroのすごいポイント

1. 人がプレイしたデータを必要としない

AlphaGo Zeroのすごいところは、以前のAlphaGoと違い、人がプレイしたデータを一切必要としないことです。以前のAlphaGoは、まず人がプレイした数百万の囲碁のデータで学習して、その後に自己対局を通じて強くなる形でした。しかしAlphaGo Zeroは最初から人のプレイデータ無しで、自己対局だけで学習していきます。AIを作る時に一番苦労をするのが、良質のデータを手に入れることです。多くの場合、データを集めるのがすごく大変だったり、データの質がよくなかったり、そもそもデータが無かったりします。AlphaGoはその苦労無しで学習してくれるのです。

2. 手作りインプットの削除

以前のAlphaGoはインプットに囲碁の背景知識が必要なデータを人が手作りして入力してました。しかし、AlphaGo Zeroのインプットは石の配置履歴だけです。つまり、AlphaGo Zeroは囲碁の背景知識が全くない状況で学習を始めるのです。背景知識なしで問題を解決するこの進化により、囲碁でない他の問題でも、AlphaGo Zeroは活用できると予測されています。

3. 圧倒的なパフォーマンス

AlphaGo Zeroはアーキテクチャが簡単になったわりにAlphaGo FanやLeeより圧倒的なパフォーマンスを誇ります。学習時間も、計算速度も比べられるものではありません。たった36時間で数か月学習したAlphaGo Leeを超えて、40日でAlphaGo Masterを超える。驚異的なスピードです。