この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 現在の多くの制御が最適制御によって実現されている。これは、制御の挙動そのものの悪さまたは良さを表すコスト関数を設定し、このコスト関数を最小化することで制御を行うものである。

 この場合、制御ははじめに最適制御によって軌道などの計画を立て、次にその計画に沿って実行される。例えば、ものをつかむような軌道を生成したい場合は開始点と終了点、速度や加速度などの制約条件の下でコスト関数を最小化するような経路を前もって求め、実行中にはその経路をトラックするようにして制御を実現する。実行中に、外力やノイズなどによって計画から外れそうになると、計画に戻るようにフィードバックが掛かる。これにより、何回繰り返しても全く同じ正確な作業が実現される。

人や動物は計画自体を常に修正

 一方、人や動物の動作(例えば走る動作や、ものをつかむ動作など)は全く同じ動作を繰り返すことはなく、各動作間にはずれがあることが知られている1)。最適制御のように経路の計画を立てた後、それを変えずに実行するのとは違って、人や動物の制御では実行しながら状況に応じて計画や制御出力を修正し続け、目的を達成するように制御されている。

 これには様々な理由がある。1つは環境中の予測不可能な外乱や内部システム(筋肉や腱など)のエラーが大きいため、遠くの未来がどうなるのかを正確に予測するのは困難だからである。そのため綿密な計画は立てずに、最終的な目標を見据えつつも、実行しながら近い未来だけを計画を立てていくのが合理的だからである。

 2つ目はエネルギー最小化の点からである。状態を計画に沿うように修正するのにもエネルギーが必要であるし、修正によって新たに生じたノイズを修正するのにもエネルギーが必要である。そのため、状態修正の際にはタスクを達成するのに必要な部分だけ修正し、タスクとは関係のないずれは修正しない。

 3つ目は行動の多様性を生むことで様々な情報を集めることができ学習における探索の面から有利である点である。

試行錯誤で情報を集める強化学習

 人や動物の場合、最終的な制御は学習によって獲得される。この学習は強化学習の枠組みで捉えることができる。最適制御はコスト関数を最小化するような制御を求める問題であり、強化学習は将来にわたっての期待報酬(期待収益)を最大化するような行動を選択する方策を獲得する問題である。

 ここで、報酬を負のコスト関数とすれば、最適制御と強化学習が解いている問題は同じとみなすことができる。強化学習においても、期待収益を最大化するような最適な方策は決定的、つまり与えられた状態に対して最適な行動が一意に定まる。一方、期待収益を最大化するだけでなく探索も実現したい場合、様々な試行錯誤を行って情報を集めることが必要になり、確率的な行動選択が必要となる。

 多様な動作によって様々な行動やその結果を経験しておくことによりノイズに強くなるだけでなく、その後の別のタスクにも役立つようになる。例えば、“もの”のつかみ方も一番良いつかみ方を1つだけ獲得するのではなく、少し性能は劣るが異なるつかみ方をたくさん学習しておくことで、次に発展したタスク(つかんだものを穴に入れる)や別のタスクを学習する際に、違うつかみ方を使って効率よく学習することができる。

見たことがない状態を効率的に探索

 従来、このような確率的な方策の多くはヒューリスティックスによって設定されていた。例えば、ϵ-貪欲方策では、一定の確率でランダムな行動を選択することによって探索を実現する。

 近年はこの探索の効果を定式化し、確率的方策を導出する手法が登場している。一例として、今回はUniversity of California BerkeleyのHaarnoja氏らによるエネルギーモデルを使った強化学習2)を紹介する。 強化学習は、各時刻tにおいてエージェントは環境から状態stを受けとり、行動atを方策π(at |st)に基づいて選択し、環境から報酬rstat)を受ける。環境はその行動に基づいて更新する。

 従来の強化学習では、将来の期待報酬∑tE[rstat)]を最大化するような方策を求めていたが、これでは探索は考慮されない。そこで、まだ見たことがないような状態を効率的に探索できるように、報酬に加えて方策のエントロピーHπ(・│st))も最大化する問題を考える。

ただし、期待値は方策に従う状態行動分布(stat)に従ってとり、α>0は探索をどれだけ重視するかを決めるハイパーパラメータである。この方策は現在の方策のエントロピーを最大化するだけでなく、将来にわたってのエントロピーを最大化していることに注意してほしい。これにより、まだ観察したことがないようなエントロピーが高い状態を好んで探索するようになる。

 この定式化における最適な方策はソフト行動価値関数Qsa)と、ソフト状態価値関数Vst)を使って、

のような確率的な方策になることが分かっている。

 各行動は、exp(Qstat))に比例する確率で選択され、各行動価値関数が分子、状態価値関数は分母にあるような関数となる。この場合、α=0とした場合が従来の最適方策と同じとなり、その時の最大の行動価値関数の値を持つ行動が決定的に選ばれる。

 このように探索も考慮したエントロピー最大化を含んだ場合でも方策や価値関数の間には美しい関係が成り立つが、問題となるのは、状態や行動が高次元の連続空間の場合にどのように行動価値関数Qstat)をモデル化するかである。行動価値関数は十分な表現を持ちつつ、状態stが与えられた時、各行動atを高速にサンプリングできる必要がある。

実際に効率的な探索を実現

 論文2)では、Qstat)にはニューラルネットワークを使って回帰モデルを作り、πat|st)から行動atのサンプリングは高次元のエネルギー関数を基にした生成モデルの1つであるAmortized SVGDを使うことで解決している。このAmortized SVGDはエネルギー関数に従った確率分布に従ったサンプルを、決定的な関数を使ってノイズから生成(GANと同様のアイデア)することができ、MCMC(マルコフ連鎖モンテカルロ法)などとは違って非常に高速に大量にサンプリングすることができる。

 Haarnoja氏らの実験では、確率的方策を使うことで実際に効率的に状態空間を探索することができ、例えば望ましい状態が複数ある場合も1つだけ調べるのではなく複数調べることができるようになっている。また、この方法によって学習されたモデルを基により難しい問題を解くことができることも示されている。

 このような“不正確な”制御が学習に役に立つことは興味深い知見である。

1)E. Todorov et al.,“Optimal feedback control as a theory of motor coordination,” Nature Neuroscience vol.5, no.11,pp.1226-1235, 2002.
2)T. Haarnoja et al.,“Reinforcement Learning with Deep Energy-Based Policies,” ICML 2017.
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。