伊本貴士=メディアスケッチ 代表取締役、サイバー大学客員講師
[画像のクリックで拡大表示]
伊本貴士=メディアスケッチ 代表取締役、サイバー大学客員講師
 先週、米Google社傘下の英DeepMind社が開発している囲碁の人工知能「AlphaGo」に新しいバージョンとなる「AlphaGo Zero」が開発されたというニュースが報じられました。新しいAlphaGo Zeroは、「強化学習」のみの学習を行った結果、2017年5月に囲碁の世界チャンピオンである中国の囲碁棋士柯潔(かけつ)氏に3連勝したAlphaGoに全勝できるほど強くなったそうです。

 わずか5カ月程度で、強い人工知能をさらに進化させたDeepMind社の開発力には驚くばかりです。AlphaGoに限らず人工知能は、今年(2017年)大きな進化を遂げています。その要因の1つとして強化学習に関する研究が進んでいるという背景があります。

強化学習とは

 プログラミングして最初に動かす時に、人工知能がどのような答えを出すのかと言えば、デタラメな答えを出します。そのデタラメな答えに対し、「何がどう間違っているのか」を教えて、計算に利用するパラメーターを更新する「学習」というプロセスを繰り返します。そうすることで初めて、人工知能は「知能」を持つようになります。

 これは人間などの生物と全く同じです。犬などの動物に、「芸をすると餌を与える」という行為は、「芸をする」という行為に対して「餌がもらえる」という報酬を得ることで、「芸をすると餌がもらえる」という行為を学習するわけです。

 このように、人工知能に対して割り出した結果を現実の事象に適用させた結果、良い結果になったか悪い結果になったかをフィードバックして学習させる手法を「強化学習」と言います。

 強化学習の典型例としては、人工知能にゲームをさせるという行為があります。この場合、人工知能がゲーム画面を見て、この「状況」に対してどういうコマンドを入力するのかという「行動」を決定します。コマンドを入力すると、それに対してゲームの結果が「報酬」としてフィードバックされます。ゲームをクリアすると、高い報酬がフィードバックされます。ゲームオーバーになれば低い報酬がフィードバックされます。

図⚫強化学習の概要
[画像のクリックで拡大表示]
図⚫強化学習の概要
出所:「日経テクノロジーインパクト2030」の著者講演資料

 AlphaGoでは、人工知能同士がバーチャル空間上で対戦を行い、勝った方の人工知能に良い報酬を、負けた方の人工知能に悪い報酬を与えることで、結果的に強い人工知能の考え方をどんどん強化していきます。そして、最終的にたくさんの人工知能の経験を統合するというプロセスを実施します。つまり、何千万局という対戦を経験した大ベテランの棋士が誕生するのです。