AlphaGoとは (アルファゴとは) [単語記事]

AlphaGo（アルファ碁・アルファー碁）とは、囲碁AIである。Google傘下のDeepMind社が開発した。

深層強化学習の研究の成果として生み出され、
将来的には自動運転、金融、医療分野（類似症例のカルテ検索）、画像検索など
多目的な分野で技術が応用される事を目指している。

概要

コンピュータ囲碁は1969年に最初のプログラムがアメリカで書かれたが、これはコンピュータ将棋（本将棋）の開発が1974年に始まったのに比べても5年早い。コンピュータチェスの開発は1950年代に始まっているが、もともと囲碁は欧米でも数学者や物理学者、コンピュータ科学者の間ではある程度知られており、アルベルト・アインシュタイン、ジョン・ナッシュ、アラン・チューリングらが囲碁をたしなんでいたことが知られている。チューリングは第2次世界大戦でイギリス軍に協力しドイツ軍のエニグマ暗号の解読作業に当たっている中、席を並べていた数学者のI.J.グッドに囲碁を教えていた。このグッドが1965年に「囲碁という謎」と題した記事を雑誌に寄稿したのが、ヨーロッパにおいて囲碁が普及するきっかけになったとされる。

ところが開発が始まってから40年が経過しても、コンピュータ囲碁は依然として人間の「アマチュア初段」の棋力にも及ばなかった。IBMのディープブルーがガルリ・カスパロフを破ってから10年、同じように難攻不落であり続けた将棋では、それでもどうにかアマチュア有段者程度、プロ棋士相手に角落ちでどうにか形になる程度の棋力をつけてきた頃においてである。

この状況をブレイクスルーしたのが、フランス人のレミ・クーロンが2005年にリリースした囲碁プログラム「Crazy Stone」である。ランダムな打ち手による終局までの棋譜を大量に生成してその中で最も勝率の良い手を採用する「モンテカルロ法」と、それ以前からボードゲームで採用されていた「ゲーム木探索」の方法を組み合わせた「モンテカルロ木探索法（MCTS）」を採用したCrazy Stoneは翌2006年に早くもコンピュータ囲碁世界一になると、分厚い壁だったアマチュア初段レベルの壁をあっさりと突破し、プロ棋士を相手にして2007年には8子局、2008年には7子局で勝利できるようになった。

一時期クーロンはCrazy Stoneの開発をストップするが、MCTSの爆発的な普及によりその他のプログラムも大幅に棋力を向上させ、その中から日本の尾島陽児と加藤秀樹によるZenが台頭する。Zenは2011年に6子局で、2012年には4子局でプロ棋士に勝利した。この頃からクーロンも再度Crazy Stoneの開発に注力し始めコンピュータ囲碁界はCrazy StoneとZenの二強の争いを中心とした構図になる。また、2015年には韓国人のイム・ジェボムが開発したDolbaramが二強に並ぶ力をつけるに至った。こうした競争の中で、コンピュータ囲碁が成長し、プロ棋士に勝てるような力をつけるに至るのではないか、とも思われたのである。

ところが、2012年に4子局でプロに勝って以降、3年を経過しても一向にコンピュータ囲碁は強くならなかった。じりじりと棋力は伸びてはいるのだが、3子でプロを相手にすると全く力が足りないのである。この時点でのコンピュータ囲碁の棋力はアマチュア6段程度と見込まれており、開発者たちもMCTS法の限界をこの辺りに感じ、さらに強くなるにはもう一段のブレイクスルーが必要で、それにはあと10年程度はかかるのではないか、というのが共通見解になっていた。

2015年、開発者コミュニティの中でGoogle傘下のDeepmind社が囲碁AIを開発しているという情報が流れ、その資金力と期待感が高まっていた。「アマチュア6段の壁を破り、3子で勝てるレベルになるのではないか」と。
そして、10月頃には関係者が「あと数ヶ月で驚きの発表をできる」とメーリングリストでほのめかす。

しかし、2016年1月に飛び込んできたニュースはそんなレベルをはるかに凌駕し、コンピュータ囲碁関係者に驚天動地の驚きを与えるものだった。
欧州チャンピオンで、中国のプロ資格を持つ樊麾（ファン・フイ）二段が、囲碁ソフトにハンデゼロの互先で5戦全敗したというのである。また、市販版のCrazyStoneやZen相手に495戦494勝という圧倒的な差をつけて勝利するに至ったというのである。このAIこそ、深層学習に強化学習を組み込んだAlphaGoであった。

この学習の成果は科学誌Natureに論文が掲載されたが、そんなもん読むわけない囲碁ファンは
「そもそも欧州のプロって強いの？」
「アマではないだろうけど2～3年前にできたばかりでしょ？」
「世界トップアマクラスではあるだろうが、日本の現役棋士・一流棋士と比べてどうなんだ？」
と疑問が積もるばかりであった。

棋譜も公開されはしたが、樊麾二段のミスばかりが指摘される始末。
とはいえ「確かに今までのAIと比べて自然で、段違いな強さは感じる」という評価は共通だった。

そんな中、Googleからとんでもない発表がされた。

AlphaGoを世界最強棋士と対局させます！
賞金は100万ドルです！

良くてあと10年はかかるとされていた囲碁AIは、たった半年で世界最高峰のプロと戦う事となる。

Google DeepMind Challenge Match
Lee Sedol vs AlphaGo

	対局日	結果
第1局	2016年3月9日	AlphaGo	白番中押し勝ち
第2局	2016年3月10日	AlphaGo	黒番中押し勝ち
第3局	2016年3月12日	AlphaGo	白番中押し勝ち
第4局	2016年3月13日	李セドル	白番中押し勝ち
第5局	2016年3月15日	AlphaGo	白番中押し勝ち
AlphaGo　4勝　-　1勝　李セドル

googleは過去１０年の世界戦のデータを参考に、最も強い棋士として
イ・セドル九段を指名し、本人も了承。
囲碁AIの挑戦は韓国で行われる事になった。
（なお、日本の井山裕太九段・中国のカケツ九段も候補者であったという噂もある）

ルールはコミ７目半の中国ルール。持ち時間は各2時間で秒読みは1分、3回の考慮時間がある。
前述したが、セドルが勝ち越すと賞金は１００万ドル。一勝につきボーナス賞金も出る。
AlphaGoが勝ち越した場合は慈善団体・囲碁団体などに寄付される。
また、どちらか一方が勝ち越したとしても５局全て消化される。
契約としては情報保持の為、しばらくはネット碁の自粛を要請された。
（東洋囲碁にdeepmindという高段IDが出現しており、正体はAlphaGoなのではないかと注目されていた。
DeepMind社CEOのデニス・ハサビス曰く「そのアカウントは開発者のうちの一人の個人的なアカウントで、開発者個人の対局である」とのことで、真相は謎のままである。）
チャレンジの最中は「コウの禁止が契約に入っていた」などというデマが流れたが、
ハサビス氏がツイッターで明確に否定した。

対局の模様はYouTubeで生中継された。
解説は５局通じてマイケル・レドモンド九段（日本棋院）
中国囲棋TVでもトップ棋士を解説として招いて中継。
日本では幽玄の間で解説付きの棋譜中継、
ニコ生では大盤を使わずに中継した。

当初セドルの５タテを疑わなかった囲碁民だったが、
第一局を落とすと風向きが一気に変わってしまう。
第二局は理にかなったAlphaGoの新布石や
セドルの勝負手を的確に処理する中盤戦、高いヨセ能力などなど、
「これ勝てないんじゃね？」という風潮が強まっていく。
第三局、セドルが「自分らしく打つ」と語り用いたのは高中国流。
だが序盤の戦いからAlphaGoが優勢を築くと、そのまま逆転できないまま終了。
「日を追うごとに強くなってる説」が出始める。もちろん、すべての対局で同じバージョン(v18)が使われており、そのようなことは無いのだが、AlphaGoの圧倒的な強さを前に飛躍した推測が後を絶たなかった。
第四局、セドルらしくないが、序中盤をじっと我慢し、中央で強烈な勝負手が成功。
中国の生中継では「神の一手」「読みではなく心で打った手」と最高の評価。
その後、AlphaGoが酷い手を連発しセドルが勝利。
そのまま連勝が期待されたが、残念ながら第五局は落とした。
セドル九段はこの挑戦の最中７キロ痩せてしまった。

囲碁熱の高い中韓では連日このニュースで盛り上がり、
日本でもAIの進化の様子がトップニュースとして取り上げられた。

AlphaGoの中身

探索アルゴリズムとしては、局面評価のための「バリューネットワーク」と、次の手を選択するための「ポリシーネットワーク」に「モンテカルロ木探索」を組み合わせたものを導入している。
それぞれ単独ではアマチュアレベルの棋力だが、3つを組み合わせることにより互いの弱点を補完し、トッププロをも凌ぐ棋力を実現した。

従来の囲碁AIとの違いは、強化学習分野に深層学習を取り入れることに成功した点である。

強化学習とは、わかりやすく言うと、一定量の素材（例えば、囲碁という「環境」、着手という「行動」、勝利という「報酬」）をポンと入れると、報酬（=勝利）が最大限得られるようにAIが試行錯誤を始めて、どんどん成長していくものである。
これに加え、どんな素材を投入し、どの程度学習させ、（過学習をさせるとよくない）
どういった方向に囲碁を捕らえるか、などなどの繊細な部分を調節する必要がある。
まさに職人技ともいうべき細やかな設定は、DeepMind社でなければできない。

深層学習とは、多層のニューラルネットワーク（人の神経を模したネットワーク構造）を利用した機械学習の一種である。
これは今まで研究されていた分野ではあったが、主にコンピュータのスペック不足などにより近年までそれほどの発展はしていなかった。
この技術は画像認識の分野で特に威力を発揮し、現在では人間以上の精度で物体認識を行えるようになった。
AlphaGoのポリシーネットワークは盤面を19×19ピクセルの画像のように認識する。

2016年3月のセドル戦で用いられたAlphaGoは、CPUコア数1202、GPU176個というスペック。
Googleが持っている計算リソースと比べると比較的小さいものとなっている。(参考までに、第2回将棋電王戦第5局に使用された総CPUコア数は2818コア、IBMのWatsonとクイズ王の対決では2880コアが使用された。)
開発者によると「演算能力を加えるほどAlphaGoのベースであるモンテカルロ木探索が瓦解することを発見した」
ためであるらしい。

分散版(1202コア,GPU176個)の単体版(48コア,GPU8個)に対する勝率は70～75%ほどであり、レーティング差は150～200程度。単体版でも十分に強いことが窺える。