AlphaGo(アルファ碁・アルファー碁)とは、囲碁AIである。Google傘下のDeepMind社が開発した。
互先(ハンディキャップなし)でプロ棋士に初めて勝利した囲碁プログラムである。
深層学習(ディープラーニング)や強化学習の研究の成果として生み出された囲碁AIである。
あくまでも研究成果の一つであり、将来的には囲碁だけではなく、自動運転、金融予測、医療分野(類似症例のカルテ検索)、画像検索など、多目的な分野で技術が応用される事を目指している。
コンピュータ囲碁は1969年に最初のプログラムがアメリカで書かれたが、これはコンピュータ将棋(本将棋)の開発が1974年に始まったのに比べても5年早い(コンピュータチェスの開発は1950年代に始まっている)。もともと囲碁は欧米でも数学者や物理学者、コンピュータ科学者の間ではある程度知られており、アルベルト・アインシュタイン、ジョン・ナッシュ、アラン・チューリングらが囲碁をたしなんでいたことが知られている。チューリングは第2次世界大戦でイギリス軍に協力しドイツ軍のエニグマ暗号の解読作業に当たっている中、席を並べていた数学者のI.J.グッドに囲碁を教えていた。このグッドが1965年に「囲碁という謎」と題した記事を雑誌に寄稿したのが、ヨーロッパにおいて囲碁が普及するきっかけになったとされる。
ところが開発が始まってから35年が経過しても、コンピュータ囲碁は依然として人間の「アマチュア初段」の棋力にも及ばなかった。IBMのディープブルーがガルリ・カスパロフを破ってから10年が近づこうとし、同じように難攻不落であり続けた将棋が、それでもアマチュア高段者程度、プロ棋士相手に角落ちで勝負になる程度の棋力をつけ、招待されたアマチュアの全国大会で上位進出を果たし「格段の成長を遂げた」とされていた頃においてである。
この状況をブレイクスルーしたのが、フランス人のレミ・クーロンが2005年にリリースした囲碁プログラム「Crazy Stone」である。ランダムな打ち手による終局までの棋譜を大量に生成してその中で最も勝率の良い手を採用する「モンテカルロ法」と、それ以前からボードゲームで採用されていた「ゲーム木探索」の方法を組み合わせた「モンテカルロ木探索法(MCTS)」を採用したCrazy Stoneは翌2006年に早くもコンピュータ囲碁世界一になると、分厚い壁だったアマチュア初段レベルの壁をあっさりと突破し、プロ棋士を相手にして2007年には8子局、2008年には7子局で勝利できるようになった。
一時期クーロンはCrazy Stoneの開発をストップするが、MCTSの爆発的な普及によりその他のプログラムも大幅に棋力を向上させ、その中から日本の尾島陽児と加藤秀樹によるZenが台頭する。Zenは2011年に6子局で、2012年には4子局でプロ棋士に勝利した。この頃からクーロンも再度Crazy Stoneの開発に注力し始めコンピュータ囲碁界はCrazy StoneとZenの二強の争いを中心とした構図になる。また、2015年には韓国人のイム・ジェボムが開発したDolbaramが二強に並ぶ力をつけるに至った。こうした競争の中で、コンピュータ囲碁が成長し、プロ棋士に勝てるような力をつけるに至るのではないか、とも思われたのである。
ところが、2012年に4子局でプロに勝って以降、3年を経過しても一向にコンピュータ囲碁は強くならなかった。じりじりと棋力は伸びてはいるのだが、3子でプロを相手にすると全く力が足りないのである。この時点でのコンピュータ囲碁の棋力はアマチュア6段程度と見込まれており、開発者たちもMCTS法の限界をこの辺りに感じ、さらに強くなるにはもう一段のブレイクスルーが必要で、それにはあと10年程度はかかるのではないか、というのが共通見解になっていた。
2015年、開発者コミュニティの中でGoogle傘下のDeepmind社が囲碁AIを開発しているという情報が流れ、その資金力と技術力から期待感が高まっていた。「アマチュア6段の壁を破り、3子で勝てるレベルになるのではないか」と。
そして、10月頃には関係者が「あと数ヶ月で驚きの発表をできる」とメーリングリストでほのめかす。
しかし、2016年1月に飛び込んできたニュースはそんなレベルをはるかに凌駕し、コンピュータ囲碁関係者に驚天動地の驚きを与えるものだった。
欧州チャンピオンで、中国のプロ資格を持つ樊麾(ファン・フイ)二段が、囲碁ソフトにハンデゼロの互先で5戦全敗したというのである。また、市販版のCrazyStoneやZen相手に495戦494勝という圧倒的な差をつけて勝利するに至ったというのである。このAIこそ、深層学習に強化学習を組み込んだAlphaGoであった。
| 対局日 | 黒番 | 白番 | 結果 | |
|---|---|---|---|---|
| 第1局 | 2015年10月5日 | Fan Hui | AlphaGo | 二目半勝ち |
| 第2局 | 2015年10月6日 | AlphaGo | Fan Hui | 中押し勝ち |
| 第3局 | 2015年10月7日 | Fan Hui | AlphaGo | 中押し勝ち |
| 第4局 | 2015年10月8日 | AlphaGo | Fan Hui | 中押し勝ち |
| 第5局 | 2015年10月9日 | Fan Hui | AlphaGo | 中押し勝ち |
| AlphaGo 5勝 - 0勝 Fan Hui | ||||
この学習の成果は科学誌Natureに論文が掲載されたが、そんなもん読むわけない囲碁ファンは
「そもそも欧州のプロって強いの?」
「アマではないだろうけど2~3年前にできたばかりでしょ?」
「世界トップアマクラスではあるだろうが、日本の現役棋士・一流棋士と比べてどうなんだ?」
と疑問が積もるばかりであった。
棋譜も公開されはしたが、樊麾二段のミスばかりが指摘される始末。
とはいえ「確かに今までのAIと比べて自然で、段違いな強さは感じる」という評価は共通だった。
そんな中、Googleからとんでもない発表がされた。
AlphaGoを世界最強棋士と対局させます!
賞金は100万ドルです!
良くてあと10年はかかるとされていた囲碁AIは、たった半年で世界最高峰のプロと戦う事となる。
googleは過去10年の世界戦のデータを参考に、最も強い棋士としてイ・セドル九段を指名し、本人も了承。囲碁AIの挑戦は韓国で行われる事になった。(なお、日本の井山裕太九段・中国の柯潔九段も候補者であったという噂もある)
ルールはコミ7目半の中国ルール。持ち時間は各2時間で秒読みは1分、3回の考慮時間がある。
前述したが、セドルが勝ち越すと賞金は100万ドル。一勝につきボーナス賞金も出る。
AlphaGoが勝ち越した場合は慈善団体・囲碁団体などに寄付される。
また、どちらか一方が勝ち越したとしても5局全て消化される。
AlphaGoの代打ちは、開発者であり台湾アマ六段でもあるAja Huangが務める。
この頃、東洋囲碁にdeepmindという高段IDが出現しており、正体はAlphaGoなのではないかと注目されていた。DeepMind社CEOのデミス・ハサビス曰く「そのアカウントは開発者のうちの一人の個人的なアカウントで、開発者個人の対局である」とのことで、真相は謎のままである。
チャレンジの最中は「コウの禁止が契約に入っていた」などというデマが流れたが、ハサビス氏がツイッターで明確に否定した。
対局の模様はYouTubeで生中継された。
解説は5局通じてマイケル・レドモンド九段(日本棋院)。
中国囲棋TVでもトップ棋士を解説として招いて中継。
日本では幽玄の間で解説付きの棋譜中継、ニコ生では大盤を使わずに中継した。
| 対局日 | 黒番 | 白番 | 結果 | |
|---|---|---|---|---|
| 第1局 | 2016年3月9日 | 李セドル | AlphaGo | 中押し勝ち |
| 第2局 | 2016年3月10日 | AlphaGo | 李セドル | 中押し勝ち |
| 第3局 | 2016年3月12日 | 李セドル | AlphaGo | 中押し勝ち |
| 第4局 | 2016年3月13日 | AlphaGo | 李セドル | 中押し勝ち |
| 第5局 | 2016年3月15日 | 李セドル | AlphaGo | 中押し勝ち |
| AlphaGo 4勝 - 1勝 李セドル | ||||
当初セドルの5タテを疑わなかった囲碁民だったが、第一局を落とすと風向きが一気に変わってしまう。
第二局は理にかなったAlphaGoの新布石やセドルの勝負手を的確に処理する中盤戦、高いヨセ能力などなど、「これ勝てないんじゃね?」という風潮が強まっていく。
第三局、セドルが「自分らしく打つ」と語り用いたのは高中国流。
だが序盤の戦いからAlphaGoが優勢を築くと、そのまま逆転できないまま終了。
「日を追うごとに強くなってる説」が出始める。もちろん、すべての対局で同じバージョン(v18)が使われており、そのようなことは無いのだが、AlphaGoの圧倒的な強さを前に飛躍した推測が後を絶たなかった。
第四局、セドルらしくないが、序中盤をじっと我慢し、中央で強烈な勝負手が成功。
中国の生中継では「神の一手」「読みではなく心で打った手」と最高の評価。
その後、AlphaGoが酷い手を連発しセドルが勝利。
そのまま連勝が期待されたが、残念ながら第五局は落とした。
セドル九段はこの挑戦の最中7キロ痩せてしまった。
囲碁熱の高い中韓では連日このニュースで盛り上がり、日本でもAIの進化の様子がトップニュースとして取り上げられた。
試合後、韓国棋院はAlphaGoに名誉九段の免状を授与した。プロとしての名誉九段が与えられたのは、これが初めてである。
李セドル九段とAlphaGoの激闘から半年後、ネット上の囲碁対局サイトには多数のAIが出現していた。
2016年末、世はまさに囲碁AI戦国時代であった。
たった3局で姿を消してしまったGod Moves。強いとはいえ死活などに弱点があり、負けることもある刑天。一方で、何十局もの対局を行い、いまだ無敗のアカウントが存在した。その名は「Master」である。
| 黒番 | 白番 |
棋士名 |
世界ランキング | 結果 | |||
|---|---|---|---|---|---|---|---|
GoRatings![]() |
mamumamu![]() |
韓国棋院![]() |
|||||
| 01 | 満漢(P) | Magist(P) | ? | - | - | - | W+R |
| 02 | 燕帰来(P) | Magist(P) | ? | - | - | - | W+R |
| 03 | Magist(P) | 聖人(P) | ? | - | - | - | B+R |
| 04 | 臥虎(P) | Magist(P) | 謝爾豪 | 29 | 34 | 14 | W+R |
| 05 | Magist(P) | 無痕(P) | 於之瑩 | 82 | 132 | 105 | B+R |
| 06 | Magist(P) | 翱翔(P) | 李翔宇 | 189 | 153 | 132 | B+R |
| 07 | Magist(P) | 重逢時(P) | ? | - | - | - | B+R |
| 08 | 三斉王(P) | Magist(P) | 韓一洲 | 153 | 122 | 123 | W+R |
| 09 | Magist(P) | 願我能(P) | 孟泰齢 | 40 | 29 | 48 | B+4.5 |
| 10 | 願我能(P) | Magist(P) | 孟泰齢 | 40 | 29 | 48 | W+R |
| 11 | 風雨(P) | Master(P) | ? | - | - | - | W+R |
| 12 | atomy(P) | Master(P) | ? | - | - | - | W+R |
| 13 | 遠山君(P) | Master(P) | ? | - | - | - | W+R |
| 14 | Master(P) | 斬立決(P) | 厳在明 | 344 | 196 | - | B+R |
| 15 | XIUZHI(P) | Magister(P) | 朴廷桓 | 2 | 2 | 2 | W+R |
| 16 | 剣術(P) | Master(P) | 連笑 | 6 | 9 | 9 | W+R |
| 17 | 剣術(P) | Master(P) | 連笑 | 6 | 9 | 9 | W+R |
| 18 | Master(P) | 吻別(P) | 柯潔 | 1 | 1 | 1 | B+5.5 |
| 19 | 吻別(P) | Master(P) | 柯潔 | 1 | 1 | 1 | W+R |
| 20 | Master(P) | XIUZHI(P) | 朴廷桓 | 2 | 2 | 2 | B+5.5 |
| 21 | 竜胆(P) | Master(P) | 陳耀燁 | 12 | 7 | 4 | W+5.5 |
| 22 | 竜胆(P) | Master(P) | 陳耀燁 | 12 | 7 | 4 | W+4.5 |
| 23 | Master(P) | abc2080(P) | 金庭賢 | 67 | 64 | 52 | B+R |
| 24 | Master(P) | XIUZHI(P) | 朴廷桓 | 2 | 2 | 2 | B+R |
| 25 | XIUZHI(P) | Master(P) | 朴廷桓 | 2 | 2 | 2 | W+0.5 |
| 26 | Master(P) | dauning(P) | 李東勲 | 20 | 21 | 24 | B+R |
| 27 | Master(P) | ddcg | 範廷鈺 | 21 | 18 | 12 | B+R |
| 28 | Master(P) | 願我能(P) | 孟泰齢 | 40 | 29 | 48 | B+R |
| 29 | 拼搏(P) | Master(P) | 芈昱廷 | 3 | 6 | 8 | W+0.5 |
| 30 | 930115 | Master(P) | 唐韋星 | 25 | 15 | 17 | W+R |
12月29日にTygem(東洋囲碁)に現れた"Magist(P)"はトッププロ棋士相手に連戦連勝を重ねる。のちに名をMaster(P)に改めたこのアカウントは、31日までに30連勝を達成。世界中の囲碁ファンの間で大きな話題となった。
強さもさることながら、なにより注目されたのは、その斬新な打ち回しである。特に棋士達を震撼させたのが、第23局目の対abc2080(P)戦。黒19手目、Masterは序盤早々に星への三々入りを見せる。このような早い段階からの三々入りは従来の価値観を根底から覆す手であり、囲碁界に大きな衝撃を与えた。
| 黒番 | 白番 | 棋士名 | 世界ランキング | 結果 | |||
|---|---|---|---|---|---|---|---|
GoRatings![]() |
mamumamu![]() |
韓国棋院![]() |
|||||
| 31 | Master | black2012 | 李欽誠 | 22 | 24 | 14 | B+R |
年が明け、MasterはTygemから野狐囲碁へと対局場を移した。これにより秒読みが20秒から30秒に増えることとなる。Masterは、持ち時間によらず1手10秒未満で着手することが多いので、プロ棋士側が多少有利となった。
Tygemと異なり、野狐囲碁ではハンドルネームの下に実名が書いてあるため、どのプロ棋士が打っているのか完全に判明した状態での対局となる。
| 黒番 | 白番 | 棋士名 | 世界ランキング | 結果 | |||
|---|---|---|---|---|---|---|---|
GoRatings![]() |
mamumamu![]() |
韓国棋院![]() |
|||||
| 32 | 星宿老仙 | Master | 古力 | 30 | 23 | 28 | W+R |
| 33 | Master | 星宿老仙 | 古力 | 30 | 23 | 28 | B+R |
| 34 | Master | 我想静静了 | 党毅飛 | 55 | 54 | 39 | B+R |
| 35 | 若水雲寒 | Master | 江維傑 | 37 | 28 | 42 | W+1.5 |
| 36 | Master | 印城之覇 | 辜梓豪 | 15 | 26 | 23 | B+R |
| 37 | Master | pyh | 朴永訓 | 16 | 14 | 21 | B+R |
| 38 | Master | 天選 | 柁嘉熹 | 7 | 3 | 3 | B+R |
| 39 | Master | jpgo01 | 井山裕太 | 8 | 31 | 38 | B+R |
| 40 | 願我能 | Master | 孟泰齢 | 40 | 29 | 48 | W+2.5 |
| 41 | airforce9 | Master | 金志錫 | 11 | 13 | 22 | W+R |
Masterの正体については様々な憶測が飛び交った。
国籍が韓国になっていることから、強化して帰ってきたDolbaramであるという説。
世界タイトル経験者にのみ与えられる金冠マークが付いていることからAlphaGoであるという説。
コミ6目半で打っていることから、絶芸・刑天とは別バージョンのテンセントが作ったAIであるという説。
「ヒカルの碁」の藤原佐為が現実に現れたのではないかという説……などなど。
39局目、史上初の国内七冠を達成した井山裕太六冠に勝利。予告なしの対局にもかかわらず同時視聴者数は4000人を超えた。
この日「 1月3日までに、最初にMasterを倒した者に賞金10万元(約170万円)」という企画が発表された。これはあくまで野狐会社と古力九段の個人的な企画であり、Masterの作者は無関係であるとしている。
| 黒番 | 白番 | 棋士名 | 世界ランキング | 結果 | |||
|---|---|---|---|---|---|---|---|
GoRatings![]() |
mamumamu![]() |
韓国棋院![]() |
|||||
| 42 | Master | 時間之虫 | 楊鼎新 | 19 | 30 | 50 | B+R |
| 43 | Master | piaojie | 姜東潤 | 24 | 22 | 25 | B+R |
| 44 | spinmove | Master | 安成浚 | 38 | 35 | 19 | W+2.5 |
| 45 | Master | 錬心 | 時越 | 9 | 5 | 11 | B+R |
| 46 | 剣過無声 | Master | 連笑 | 6 | 9 | 9 | W+R |
| 47 | Master | 段誉 | 檀嘯 | 13 | 10 | 16 | B+R |
| 48 | maker | Master | 朴廷桓 | 2 | 2 | 2 | W+1.5 |
| 49 | wonfun | Master | 元晟溱 | 32 | 32 | 29 | W+R |
| 50 | 潜伏 | Master | 柯潔 | 1 | 1 | 1 | W+R |
Masterの快進撃は止まらない。
48局目、韓国ランキング1位の朴廷桓九段に勝利。朴廷桓九段はTygemでの対局も含めると5回もMasterと打ったことになる。
50局目、中国ランキング1位にして世界1位の柯潔九段との対局が実現する。対局は、序盤に優位を築いたMasterがそのまま逆転を許さずに勝利した。この一局の後、柯潔九段は体調不良により人生初の入院を余儀なくされる。
| 黒番 | 白番 | 棋士名 | 世界ランキング | 結果 | |||
|---|---|---|---|---|---|---|---|
GoRatings![]() |
mamumamu![]() |
韓国棋院![]() |
|||||
| 51 | 周俊勳 | Master | 周俊勳 | 185 | 243 | - | W+R |
| 52 | ykpcx | Master | 範廷鈺 | 21 | 18 | 12 | W+R |
| 53 | Master | 孔明 | 黄雲嵩 | 17 | 12 | 6 | B+R |
| 54 | Master | 聶衛平 | 聶衛平 | 320 | 239 | - | B+7.5 |
| 55 | 謎団 | Master | 陳耀燁[4] | 12 | 7 | 4 | W+1.5 |
| 56 | Master | shadowpow | 趙漢乗 | 52 | 42 | 37 | B+R |
| 57 | Master | nparadigm | 申真谞 | 10 | 11 | 5 | B+R |
| 58 | 小香饞猫 | Master | 常昊 | 95 | 66 | 78 | W+R |
| 59 | Master | Eason | 周睿羊 | 5 | 4 | 6 | B+R |
| 60 | 古力 | Master | 古力 | 30 | 23 | 28 | W+2.5 |
51局目の周俊勳九段は黒番マネ碁を仕掛けた。71手目でマネ碁を止めたが、その後劣勢となってしまう。
54局目には中国囲碁界のレジェンドである聶衛平九段との対局が実現した。聶衛平九段が高齢であることを考慮して、この一局に限り秒読み60秒で対局が行われた。この対局に対する注目度は高く、同時視聴者数は6000人を超えた。
59局目の周睿羊九段との対局が終わった後、Master開発者がチャット欄にて「我是AlphaGo的黄博士(私はAlphaGoのHuang博士です)」と正体を明かし、Masterの正体がAlphaGoであることが確定する。
60局目、本来は柯潔九段が再び対局する予定であったが緊急入院してしまったため、代わりに古力九段との対局となった。Masterは、この対局に勝利し、一週間で60連勝を達成した。つい1年前まで「プロに勝てるまであと10年はかかる」と言われていたコンピュータ囲碁は、たった1年ではるかな高みへと到達した。
その後ハサビス氏がtwitter上で公式声明を出した
。Magister(P)およびMaster(P)の正体はAlphaGoであり、プロトタイプバージョンのテストであったことや、2017年中に長時間の公式対局も行う意向であることなどを公表した。柯潔九段や古力九段など一部の棋士や野狐囲碁の中の人はMasterの正体について知っていたようである。また、全60局ともAja氏が手入力していたため、第9局目の願我能(P)戦と第39局目の井山裕太九段戦で入力ミスがあったことが後に明らかになった。
ハサビス氏が予告した通り、2017年5月に"The Future of Go Summit"が中国烏鎮で開催された。AlphaGoが公式対局を行うのはこれが最後であり、「人類とAIの最終決戦」と称された。
なお、この対局には中国当局の報道規制が入り、中国国内メディアによるリアルタイムの報道が禁止されていた(事後報道や、国外向けの生中継は許可されている)。国外への公式生放送予定すら直前まで決まらなかったことから、裏で相当揉めていたことが伺える。
柯潔九段は中国浙江省出身の囲碁棋士である。中国ランキング1位であり、また非公式ながら、全ての主要世界ランキングで1位でもある。19歳にして主要な国際棋戦で4回優勝しており、2017年5月現在も2冠を維持している。囲碁にはチェスのように世界一を決めるタイトルマッチは無いが、誰もが認める世界最強の棋士である。
持ち時間は3時間で秒読み1分、5回の考慮時間がある。
賞金は150万ドル、出場料は30万ドル。
今回のAlphaGoは、李セドル九段戦のようなクラスタ構成ではなく、1台のマシン(4TPU)で実行される。
| 対局日 | 黒番 | 白番 | 結果 | |
|---|---|---|---|---|
| 第1局 | 2017年5月23日 | 柯潔 | AlphaGo | 半目勝ち |
| 第2局 | 2017年5月25日 | AlphaGo | 柯潔 | 中押し勝ち |
| 第3局 | 2017年5月27日 | AlphaGo | 柯潔 | 中押し勝ち |
| AlphaGo 3勝 - 0勝 柯潔 | ||||
第1局。ニギリの結果、柯潔九段の黒番となった。黒7手目、Masterがプロ棋士に対して見せた序盤での三々入りを逆に柯潔九段が行った。その後はAlphaGoが序盤から全局的なリードを保ち大差となってしまう。終盤は後述するプレイアウトの性質によりAlphaGoが堅く打ち、半目勝負となった。
第2局。AlphaGoの黒番。本局では非常に拮抗した攻め合いが繰り広げられ、AlphaGoの形勢判断では100手まで均衡が保たれていた。互角のままコウ絡みの複雑な局面へと突入したが、黒119の妙手が決定打となり、せめぎ合いをAlphaGoが制した。これにより、AlphaGoの勝ち越しが決定する。
第3局。柯潔九段の希望でAlphaGoが黒番となった。黒13手目、Masterが新手を放つが柯潔九段は手抜きして柔軟に対応する。中盤以降は、柯潔九段の細かいミスにより弱い石が目立ってしまう。これ対しAlphaGoは厚く打ち、反撃の隙を与えなかった。白も果敢に食らいつくが形勢を覆すには至らず、黒の勝勢となってしまった。白126手目を打った後、憮然たる面持ちの柯潔九段は突然の離席をする。12分後、対局場へと戻った彼の瞳には涙が浮かんでいた。涙を拭い、再びAlphaGoと対峙する柯潔。圧倒的な強さを誇るAlphaGoを前にして、19歳の若き王者は何を思ったのだろうか。涙の理由は彼にしか分からないだろうし、そうであるべきだろう。
ペア碁とは、男女がペアを組み対局する囲碁の形式である。この対局では連笑八段とAlphaGo、古力九段とAlphaGoがそれぞれペアを組み対局を行う。本来は黒番女性→白番女性→黒番男性→白番男性という順番で着手するが、今回は黒番人間→白番人間→黒番AlphaGo→白番AlphaGoという順である。
持ち時間は1時間、秒読み1分。
ニギリの結果、古力九段ペアの黒番で始まった。中盤までは古力九段ペアが優勢であったが、連笑九段とAlphaGoがうまく息を合わせて反撃を開始し、逆転に成功。220手まで連笑八段ペアの白中押し勝ちとなった。
チーム碁では、中国棋士5人がチームを組んでAlphaGoと対局を行う。メンバーは、芈昱廷九段(中国ランキング2位, 2013年夢百合杯優勝)、周睿羊九段(4位, 2013年百霊杯優勝)、陳耀燁九段(5位, 2016年百霊杯優勝)、時越九段(8位, 2013年LG杯優勝)、唐韋星九段(20位, 2016年応氏杯優勝)。全員、主要世界大会の優勝経歴者である。
持ち時間は2時間30分、秒読み1分、3回の考慮時間がある。
検討は継ぎ盤を使用して行われる。
ニギリの結果、棋士チームの黒番となった。白42手目、おなじみの三々入りを見せたAlphaGoは、その後上辺を荒らし優位を築く。以降は持ち時間の少なさも棋士チームを苦しめ、攻勢に出ることが出来ずに254手までAlphaGoの白中押し勝ちとなった。
閉幕式では、中国棋院からもAlphaGoにプロ名誉九段の免状が授与された。
試合後、DeepMindはAlphaGo(Master)同士の対局棋譜を50局公開した。この対局は1手2分の長時間対局であり、学習中の自己対局ではなく、公開用に新たに対局した棋譜であると思われる。棋譜は序盤中盤終盤を通して意味不明な手のオンパレードであり、世界中の囲碁ファンを再び驚愕させた。
他には、オンライン棋譜解析サービスとしてteaching toolを導入すること、今年中に論文が公開されることなどが予告された。
こうして世界最強棋士とAlphaGoの戦いは幕を下ろした。
2014年2月。David Silver, Aja Huang, そしてDemis Hassabisのたった3人で開始されたAlphaGoプロジェクトは、世界中の囲碁ファンや研究者に興奮と感動を与え、2017年5月ここに終了した。
チェスや将棋のAIがチャンピオンを上回ってなお、コンピュータ囲碁がアマチュアレベルでありつづけた原因として次のことが考えられる。
このような理由から囲碁では他のボードゲームで使われるαβ探索が有効ではなく、囲碁は二人零和(有限)確定完全情報ゲームの最後の砦として開発者の前に立ちふさがっていた。
AlphaGoと従来の囲碁プログラムとの最大の違いは、困難であった状態評価関数の作成に成功した点である。強化学習分野に深層学習を取り入れることによってこれを成し遂げた。
AlphaGoには多くのバージョンが存在するが、最新の論文では4つのバージョンに区別している。"AlphaGo Fan(v13)", "AlphaGo Lee(v18)", "AlphaGo Master", そして"AlphaGo Zero"の4つである。
2015年10月に、欧州囲碁チャンピオンのFan Hui二段と対局したバージョンである。ちなみにFan Hui二段はAlphaGoに敗北後、開発チームにメンバーとして加わった。
アルゴリズムとしては、局面評価のための「バリューネットワーク」と、次の手を選択するための「ポリシーネットワーク」に「モンテカルロ木探索」を組み合わせたものを導入している。それぞれ単独ではアマチュアレベルの棋力だが、互いを組み合わせることにより弱点を補完し、GoRatings
基準で3140Elo程度の棋力を実現した(CPU1,202スレッドGPU176基)。
AlphaGoのニューラルネットワークは以下の3ステップで作成される。
Value networkを作るにあたって、開始局面にKGSの棋譜を使うと過学習をしてしまった。これを回避するために、新たにSL policy network同士で自己対局を行い、1対局につき1つの開始局面を生成している。具体的には、SL policy network同士でランダムな手数まで自己対局を繰り返した後、1手だけランダムな手を打ち、そこからRL policy networkで終局まで自己対局を行っている。
つまり、この3000万局面のデータセットを作るために3000万局の自己対戦を行っているのである。
……わけがわからないよ
ちなみに、よく勘違いされるが強化学習部のアルゴリズムは方策勾配法のREINFORCEであり、DQNでおなじみのDeep Q-Networkは用いられていない。
これらの関数を使ってモンテカルロ木探索を行い、訪問回数が最も多かった指し手を選択する。プレイアウトにはFast rollout policy、バイアス(どの枝を選択するか)にはSL policy networkを使用する。ただし、リーフノードの評価にはValue networkによる評価と、Fast rollout policyによるプレイアウトを併用する(APV-MCTS)。
次の手を選択するpolicyにはRLよりもSLを用いたほうが良いらしい。そのため、RL policy networkはValue networkを作成するためのみに使い、対局時には一切使用しない。
李セドル戦後、一部報道にあった「囲碁のルールすら組み込まれていない」「グルーピングをしている」という説明は誤りである。
2016年3月に、李セドル九段と対局したバージョンである。
3,739Elo程度の棋力を実現した(TPU48基)。
AlphaGo Fan(v13)に3~4子[5]置かせることが出来る。
自己対局では、中国ルール(コミ7.5目)で白番勝率約52%であるらしい。
v13と基本設計は同じである。大きな違いは以下の3つ。
2017年1月に60連勝を達成したバージョンである。2017年5月に柯潔九段と対局したのもこれにあたる。
4,858Elo程度の棋力を実現した(TPU4基)。
AlphaGo Lee(v18)に3子置かせることが出来る。2子では全勝した。
このバージョンから設計が大きく変更された。
強化学習には、次のAlphaGo Zeroと同様のアルゴリズムを使用している。しかしMasterでは、依然として人間の棋譜から教師あり学習を行い、手作りの特徴量を使ったFast rollout policyでプレイアウトを行っている。
2017年10月に発表された、AlphaGoの最終バージョンである(※論文投稿は4月)。
5,185Elo程度の棋力を実現した(TPU4基)。
自己対局では、中国ルール(コミ7.5目)で白番勝率約55%であるらしい。
Masterとの大きな違いは以下の3つ。
AlphaGo Zeroの自己対局は以下の3要素から成り立つ。
この3プロセスを並列して学習を進めていく。
ちなみに、合法手などの囲碁そのものに関する情報は与えているが、その他の知識(自分の眼を潰す手など)は一切与えていない。
論文では、まずニューラルネットワークを20blocks(40層)にして学習を行った。
20blocksでは、36時間でv18と同等の強さになった。最終的に3日間で490万対局を行い、対局時のスペックが違う(v18は48TPUs, Zeroは4TPUs)にもかかわらずv18に100-0で勝ち越す強さになった。
次に40blocks(80層)に増やして学習を行った。
こちらは3日間でv18と同等の強さとなり、21日間でMasterと同等の強さになった。最終的に40日間で2900万局の対局を行い、Masterに89-11で勝ち越す強さになった。
学習の過程において、AlphaGoは人間の間で使われる様々な定石を発見した。しかし、最終的には独自の定石を好んで使ったらしい。
さらに、AlphaGoは学習の早い段階において囲碁の概念(布石、手筋、死活、コウ、ヨセ、攻め合い、先手、形、勢力と実利など)を次々と獲得していった。意外にも、人間の場合は最初に習うであろうシチョウは、かなり学習を進めるまで理解できなかった。
| バージョン | スペック | Eloレーティング[6] |
|---|---|---|
| AlphaGo Fan | 176GPUs | 3,144 |
| AlphaGo Lee | 48TPUs | 3,739 |
| AlphaGo Master | 4TPUs | 4,858 |
| AlphaGo Zero | 4TPUs | 5,185 |
自己対局や李セドル戦においては一般的なGPUではなく、深層学習専用プロセッサーであるTPU(Tensor Processing Unit)が使用された。浮動小数点演算の精度を抑えることで演算に要するトランジスタを減らしており、消費電力あたりの性能が極めて高くなっている。第1世代のTPUでは対局(推論)専用であったが、2017年に発表された第2世代では学習時にも使えるようになった。
論文では、分散版(1202スレッド,GPU176基)と単体版(48スレッド,GPU8基)のレーティング差は250。
また、AlphaGo Leeにおいては分散版の単体版に対する勝率は70~75%ほどであるとしており、単体版でも十分に強いことが窺える。対局時のスペックばかり注目されるのに嫌気が差したのか、Master以降は単体版で動かしている。
上記のスペックははあくまで実行時(対局時)のものであり、学習時の重み更新や棋譜生成には依然として大量のGPU/TPUを必要とする。AlphaGo Zeroの自己対局には1手あたり0.4秒かかるので、平均200手で終局と仮定すると
29,000,000局 × 0.4秒 × 200手 ≒ 74年ほどかかる計算になる。
DeepMindは魔法(物理)を使って、これを40日で終わらせている。もちろん、この1手0.4秒というのは前述のTPUを使った場合である。2017年時点のコンシューマー向けGPU(GTX1080Ti)を使った場合は9.3秒ほどかかるらしいので、1基だと
29,000,000局 × 9.3秒 × 200手 ≒ 1710年かかる。ひぇぇ……
AlphaGoの開発費については、様々な噂が存在する。
いずれにしろ、これらの話は推測であったり伝聞だったりするので、眉に唾をつけておくべきである。
AlphaGoの「Go」は日本語の「碁」に由来する、欧米圏で「囲碁」を示す語である。しかし、同じ漢字圏の中国語では囲碁は「囲棋」という単語であり、そもそも「碁」という字それ自体が中国ではほぼ使われないものとなっている(ちなみに韓国語では「パドゥク」という)。このため、AlphaGoが登場した際、中国では「Go」とはなんのことだ?と話題になり、同じ音である「狗」のことと解して、AlphaGoを犬にたとえる流れができ、そのようなイラストも出回った。
Match1 YouTube公式
https://www.youtube.com/watch?v=vFr3K2DORc8
Match2 YouTube公式
https://www.youtube.com/watch?v=l-GsfyVCBu0
Match3 YouTube公式
https://www.youtube.com/watch?v=qUAmTYHEyM8
Match4 YouTube公式
https://www.youtube.com/watch?v=yCALyQRN3hw
Match5 YouTube公式
https://www.youtube.com/watch?v=mzpW10DPHeQ
Match1 YouTube公式
https://www.youtube.com/watch?v=Z-HL5nppBnM
Match2 YouTube公式
https://www.youtube.com/watch?v=1U1p4Mwis60
Pair Go & Team Go YouTube公式
https://www.youtube.com/watch?v=V-_Cu6Hwp5U
Match3 YouTube公式
https://www.youtube.com/watch?v=ru0E7N0-kFE
(公式サイト)
(布石の勉強用ツール)
(2015年の論文)
(2016年の論文, AlphaGo Fan)
(2017年の論文, AlphaGo Zero)掲示板
88 ななしのよっしん
2021/01/12(火) 17:52:26 ID: LbPajoT78N
囲碁やピッチングマシーンの話を自動運転と結びつけるやついるけど全然違げえよ。前者二つは所詮はスポーツ、娯楽じゃん。実際の生活の中にあって、何よりも安全が求められるようなタクシー運転とはわけが違う。安全が求められるからAIの導入は最初かなり慎重になるだろうけど、いったん人間が運転するより安全だと認められたら急速な置き換え運動が起きるだろうね。
89 ななしのよっしん
2021/01/12(火) 23:38:03 ID: G2IifRrDli
野球や囲碁は選手や棋士の「駆け引き」もエンターテイメントになっているからな
ここらへんの娯楽性はAIじゃ書き換えられない
90 ななしのよっしん
2021/02/24(水) 18:46:09 ID: DBeoh4GuFK
コンピュータチェスや将棋、囲碁その他の話を聞くと、対戦型ビデオゲーム、特にレトロ対戦ゲームを人間以上のコンピュータがやったらどうなるんだろうって思う。
単純に上手い人が居ない、やりこむ人も居ないどころか動画も無いゲームが殆どだし、かといってTASの自己対戦は対戦と言うより劇。
人間の限界点と同等か、それ以上の対戦がどんな世界なのか気になる。つまらないか長すぎるゲームでもAIには関係が無いし、何かしらゲームの新しい発見が見れるかも知れないから。
まあ、AlphaGoの開発元が出したエージェント57というAlがもうあるんだけど、動画が無いし対戦に対応してるかも分からないんだよね。
急上昇ワード改
最終更新:2025/12/25(木) 05:00
最終更新:2025/12/25(木) 05:00
ウォッチリストに追加しました!
すでにウォッチリストに
入っています。
追加に失敗しました。
ほめた!
ほめるを取消しました。
ほめるに失敗しました。
ほめるの取消しに失敗しました。