フューチャー技術ブログ

最新で最強、AlphaGo Zero の解説

はじめに

こんにちは。データサイエンスチームの李(碩)です。
以前、古典的ゲームAIを用いたAlphaGo解説に紹介したAlphaGoの最新バージョンが2017年10月19日に発表されました。

この記事では、最新のAlphaGo、AlphaGo Zero の仕組みについて紹介です。

本文を直接読みたい方はスライドをご覧になってください。

AlphaGo のバージョン

AlphaGo には下記の4つのバージョンがあります。

1. AlphaGo Fan
  ・2015年10月にヨーロッパの囲碁チャンピオンFanに勝利
2. AlphaGo Lee
  ・2016年3月に過去世界最強と呼ばれたイ・セドルに勝利
3. AlphaGo Master
  ・2017年1月、オンラインで世界最強の棋士たちに60:0で勝利
4. AlphaGo Zero
  ・2017年10月に論文発表

前回の古典的ゲームAIを用いたAlphaGo解説に紹介したAlphaGoのバージョンは「AlphaGo Fan」になります。AlphaGo ZeroはAlphaGo Fanとアーキテクチャレベルから大きく異なります。Fanの場合、2つのディープニューラルネットワーク(DNN)で構成され、その他にも結構複雑なアーキテクチャになっています。しかし、Zeroの場合は1つのDNNだけで、学習プロセスもすごく簡単になりました。簡単になったけど、学習は早く、性能も強力になったのです。

AlphaGo Zeroのすごいポイント

1. 人がプレイしたデータを必要としない

AlphaGo Zeroのすごいところは、以前のAlphaGoと違い、人がプレイしたデータを一切必要としないことです。以前のAlphaGoは、まず人がプレイした数百万の囲碁のデータで学習して、その後に自己対局を通じて強くなる形でした。しかしAlphaGo Zeroは最初から人のプレイデータ無しで、自己対局だけで学習していきます。AIを作る時に一番苦労をするのが、良質のデータを手に入れることです。多くの場合、データを集めるのがすごく大変だったり、データの質がよくなかったり、そもそもデータが無かったりします。AlphaGoはその苦労無しで学習してくれるのです。

2. 手作りインプットの削除

以前のAlphaGoはインプットに囲碁の背景知識が必要なデータを人が手作りして入力してました。しかし、AlphaGo Zeroのインプットは石の配置履歴だけです。つまり、AlphaGo Zeroは囲碁の背景知識が全くない状況で学習を始めるのです。背景知識なしで問題を解決するこの進化により、囲碁でない他の問題でも、AlphaGo Zeroは活用できると予測されています。

3. 圧倒的なパフォーマンス

AlphaGo Zeroはアーキテクチャが簡単になったわりにAlphaGo FanやLeeより圧倒的なパフォーマンスを誇ります。学習時間も、計算速度も比べられるものではありません。たった36時間で数か月学習したAlphaGo Leeを超えて、40日でAlphaGo Masterを超える。驚異的なスピードです。

本資料の狙い

本資料ではAlphaGo Zeroの仕組みを分かりやすく解説します。AlphaGo Zeroはどう作られているかが知りたい方はぜひご覧になってください。

本資料の目次

  1. AlphaGo Zeroを構成する2つのパーツ
  2. ニューラルネットワーク(DNN)
  3. モンテカルロ木探索(MCTS)
  4. AlphaGo Zeroの学習プロセス
  5. MCTSによる自己対局
  6. DNNの学習
  7. 学習前後の性能比較
  8. AlphaGoの各種バージョン
  9. AlphaGo Fan vs. AlphaGo Zero
  10. AlphaGo Zeroの性能評価
  11. 教師あり学習 vs. 強化学習
  12. 人の動き予測
  13. まとめ
  14. 参照論文

https://www.slideshare.net/suckgeunlee/alphago-zero?qid=c9839b2d-a0e1-4feb-b72c-063282fe9fc5&v=&b=&from_search=1

まとめ

AlphaGo Zeroは人のデータを必要としない、そして囲碁の背景知識を全く使わないことで、他の領域でも活用できると思われています。今後、AlphaGo Zeroを元にどんな面白い課題を解決していくのか、すごく楽しみですね!