ディープラーニングを用いたコンピュータ囲碁

～Alpha Go の技術と展望～

電気通信大学

2016.04.22

本記事は、情報処理学会発行の学会誌『情報処理』Vol.57, No.4に掲載されたものの抜粋です。全文を閲覧するには情報処理学会の会員登録が必要です。会員登録や全文の閲覧に関してはこちらから（情報処理学会のホームページへのリンク）。

Alpha Go の衝撃

　2016年1月28日、日本時間AM3:00に、そのニュースは発表された。Googleの研究グループがNatureに“Mastering the Game of Go with Deep Neural Networks and Tree Search”という論文を発表した^1）。それによると、ディープラーニングと強化学習を用いた手法で囲碁の局面を評価する新しい手法を確立し、その手法と従来のモンテカルロ木探索（MCTS: Monte-Calro Tree Search）の手法を組み合わせることで、既存のプログラムに99.8％勝つばかりか、囲碁のヨーロッパチャンピオンのプロ棋士に5連勝したというものであった。

　コンピュータ囲碁は、2006年頃に発表されたMCTSの手法で、近年めざましく進歩した。2015年3月に開催されたプロ棋士とコンピュータ囲碁の置碁公式戦である電聖戦では、第25世本因坊治勲を相手に、4子では勝利したものの3子では力の差を見せつけられており、プロ棋士とは3子以上の差はあると思われてきた。互先でプロ棋士に勝利するには、まだ10年程度は要するのではないかと考えられてきた。

　チェスや将棋と比べ、コンピュータにとって囲碁は、盤面の広さによる探索の困難さもさることながら、局面の評価関数（盤面の優劣を数値化する関数）を作ることが絶望的に難しいとされてきた。囲碁では石1つ1つには意味がなく、それが連なって意味を構成していく。石の繋がり方は千差万別で、石1個の配置が違っても意味はガラリと異なることがある。人間はこのような石の繋がりを、石の「強さ」や「厚み」といった言葉で表現するが、このような感覚的な局面の理解はコンピュータには困難であると考えられてきた。

　しかし、今回のGoogleの論文では、ディープラーニングを用いることで、局面を評価できるネットワークを構築したというのだ。これが、コンピュータ囲碁研究者・開発者を驚かせた。