好奇心をどう実装するか

 AIが自ら刺激を求め、タスク自体を探す仕組みは、これから両社が開発するものであり、まだ実用になっている訳ではないが、ソニーの過去の研究などにその片鱗が伺える。

 ソニーは、心理学の「フロー理論」を基にして、このテーマを研究してきた。フロー理論とは、人間が学習する際、その人のスキルに照らし合わせてちょうど良い難易度のタスクであると、学習効率や仕事の創造性が最も高くなるという考え方。簡単すぎるタスクでは新しい知見を得にくく、逆に難しすぎると過去の知見が生きないということである。

 そこでソニーは、タスクが容易な状態にある場合には、より未知の領域を探索する行動を、非常に難しい状態にある場合には、過去の知見が生きる既知の領域に戻る行動を取る。そんな行動戦略を取るAIを実装した(図2)。AIが内部に持つ「状態の予測器」による予測が、観測値と十分合致していたり、観測値が過去の経験とかけ離れていないような場合、「タスクが容易」と判断する。学習効率がピークとなる領域を境に、これら2つの行動戦略を切り替える。

図2 フロー理論に基づき新たな知見の獲得が継続するよう行動
図2 フロー理論に基づき新たな知見の獲得が継続するよう行動
特定のタスクについて学習が一度収束すると、システムがその状況に“飽きている”と見なし、新たなタスクの探索に向かうよう行動する。ただし、不確実性の高い状況では過去に学習した知見が生きないため、その場合は不確実性を下げるような行動を取る。(図:ソニーの図を基に作成)
[画像のクリックで拡大表示]

 常に刺激を求めて学習し続けるAIを実現する場合、一種のオンライン学習となる。このため、新規に学習した内容をどのように記録するかが課題となる。過去に学習した基礎的な知見と、直近に学習した知見とを完全に均等に扱ってしまうと、AIの行動を決定する上で重要な役割を果たす基礎的な知見が、直近の学習内容で上書きされ、破壊されてしまう危険性がある。

 そこでソニーの前述の研究では、タスクが容易な既知の領域か、困難な未知の領域かで、行動戦略だけでなく、学習内容の記録(更新)方法についても切り替えるようにした。既知の領域では、学習内容が破壊されるリスクが少ないため、学習モデル全体を書き換え可能とし、未知の領域では局所的な領域のみ書き換えられるようにした2。局所的な書き換えが可能となるよう、学習内容は階層的な構造とする。藤田氏は「理想的には、そうした階層構造も学習を通じて自己組織化されるようにしたい」と語る。なお、一般的な強化学習における報酬は“外発的な動機”に相当するという。

DeepMindを意識

 ソニーとCogitai社は、こうした好奇心を実現する過去の研究開発成果に、近年の深層強化学習の成果を組み合わせていく方針のようだ。

 Cogitai社の創業者らも深層強化学習には並々ならぬ興味を示し、実際、研究に着手している。例えば、同社PresidentのStone氏は、本誌が前号3)で紹介したグーグルDeepMindのロボット向きの深層強化学習手法「Deep DPG(deterministic policy gradient)」4)を取り上げ、同手法をロボット国際競技会「RoboCup」の研究用シミュレータ「RoboCup 2D HFO(Half-Field-Offense)」に適用した成果を2016年に発表している(図3)5)

図3 Cogitai社のStone氏らはグーグルの深層強化学習技術をRoboCupに適用
図3 Cogitai社のStone氏らはグーグルの深層強化学習技術をRoboCupに適用
Stone氏らは、ディープラーニングを用いたグーグルDeepMindの強化学習技術「Deep DPG」を、RocoCupのタスク向けに適用した。強化学習の一手法である「Actor-Critic型」を用いており、Deep DPGと同じく方策(policy)とQ関数のそれぞれをニューラルネット(CNN)で近似している。
[画像のクリックで拡大表示]

 DeepMindは2013年、家庭用ゲーム機「Atari 2600」のゲームで人間並みスコアを獲得するAI「DQN(Deep Q-Network)」を深層強化学習で構築した。ただし、DQNはゲーム操作という離散行動が対象だったため、DQNをロボットのような連続行動向けに拡張した深層強化学習技術としてDeep DPGを開発した経緯がある。Stone氏も、DeepMindのような企業を十二分に意識しているといえそうだ。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
1)M. Fujita,“Intelligence Dynamics:a concept and preliminary experiments for open-ended learning agents,”Autonomous Agents and Multi-Agent Systems, vol.19, pp.248-271, 2009.
2)星野ほか、「自己調整学習メカニズム:オープンエンドな環境で発達するエージェントの自律発達行動権利」、『日本ロボット学会誌』、vol.29、no.1、pp.77-88、2011.
3)進藤、「ロボットの行動生成にディープラーニング、CNNと強化学習で連続値ベースの運動が獲得可能に」、『日経Robotics』、2016年7月号、pp.14-19.
4)T. Lillicrap et al.,“Continuous control with deep reinforcement learning,” http://arxiv.org/abs/1509.02971
5)M. Hausknecht et al.,“Deep Reinforcement Learning in Parameterized Action Space” ICLR 2016、http://arxiv.org/abs/1511.04143