「AlphaGo Zero」の衝撃と強化学習の進化

第28回　人工知能と学習

メディアスケッチ代表取締役、サイバー大学客員講師

2017.11.01

強化学習のメリット

　囲碁棋士である柯潔氏と対戦した旧AlphaGoは、まず過去のプロ同士の対戦棋譜を「教師」として学習する「教師あり学習」を実施しました。言い換えると、人間のプロなら次にどこに打つかの予測を行う「バーチャルな次の一手名人」を作ったのです。この時点では人間のアマチュアチャンピオンと同等レベルの実力だった旧AlphaGoが、ここから先ほど述べた人工知能同士の対戦を「強化学習」として行ったわけです。

　「教師あり学習」は、比較的短時間で人工知能の能力を向上できるというメリットがあります。しかし、良質の「教師データ」が必要になり、これを準備することは極めて面倒な作業です。これが、企業で人工知能の採用がなかなか進まない原因といっても過言ではありません。

　例えば、画像で製品の品質を判別するにも、事前に何千、何万という画像と、その品質評価値を誰かが準備しなければならないのです。囲碁に関しては、ネットの囲碁対戦が普及したことにより、プロ同士の棋譜が簡単に手に入るようになりました。従って、たまたまその面倒が必要なかったという背景があります。

　ここで「強化学習」が登場するわけです。強化学習では一般に、人間が何かを準備する必要はありません。自動で報酬を得られるようにすれば、人工知能が勝手に学習していきます。ただし、報酬を的確に設定することは難しい。そのため、強化学習は精度が向上するまでに非常に多くのコンピューターと時間が必要になるというデメリットがあります。

　これに対し、2017年はさまざまな解決策が提案されています。ハードウエアの面ではGoogle社がディープラーニング（深層学習）専用のプロセッサー「TPU」を開発するなど、汎用ではなく専用のコンピューターが開発されようとしています。また、量子コンピューターの開発が進んでおり、実用化されればハードウエア面での問題は一気に解決する可能性があります。ソフトウエアの面では、アルゴリズムである「A3C（Asynchronous Advantage Actor-Critic）」などの強化学習手法が考案され、複数の人工知能が並列処理を行います。それと同時に学習し、後でその経験を統合することが行われています。

　その結果、AlphaGo Zeroは、過去の人間に学ぶことなく、ほんの数カ月人工知能同士の対戦という「強化学習」をしただけで、以前の性能を追い抜いたのです。興味深いのは、AlphaGo Zeroはゼロの状態から人工知能の世界のみで学習しているため、「定石」や「癖」といったものを全く持たない点です。よって、人間が考えたこともない、全く新しい定石を考案しているそうです。