フィードバックをテコにして進化

図3●ロボットによるブランコ漕ぎの第1段階 日立の動画をキャプチャー。
図3●ロボットによるブランコ漕ぎの第1段階 日立の動画をキャプチャー。
[画像のクリックで拡大表示]
図4●ロボットによるブランコ漕ぎの第3段階 日立の動画をキャプチャー。
図4●ロボットによるブランコ漕ぎの第3段階 日立の動画をキャプチャー。
[画像のクリックで拡大表示]
図5●既存の物流倉庫管理システムとHとのやりとり 日立のスライド。
図5●既存の物流倉庫管理システムとHとのやりとり 日立のスライド。
[画像のクリックで拡大表示]

 今回の講演で矢野氏は、Hをロボットの最適制御に適用した動画を見せた。ロボットにブランコ漕ぎをさせるもので、目標はブランコの振れ幅の最大化である。この目標とHへの入出力データ(センサーからのデータ、アクチュエーターへのデータ)は人間が決めているが、データへの重みづけなどに人間はかかわらない。動画はロボットの漕ぎ方が自ずと進化していく様子を示した。

 第1段階では、何の指標もないので、ロボットはやみくもに漕ぎブランコはほとんど振れない(図3)。第2段階では普通のヒトの漕ぎ方になり、第3段階では2重伸縮と呼ばれている技をHが生み出し、普通の人を超える漕ぎ方を得るという内容だった(図4)。

 このロボットのブランコ漕ぎの例から分かるように、Hは過去の実績をフィードバックして進化していく(賢くなっていく)。しかも進化のスピードが速い。やみくもに漕いでから普通の人を超える漕ぎ方まで、わずか5分間程度だという。短時間で適切な評価関数が得られたことがうかがわれる。跳躍学習技術の効果である。一般に機械学習やディープラーニングと呼ばれる手法では、このような短時間では難しいと矢野氏は言う。

 フィードバックをテコにして、進化していくのは、上述のロボット制御システムと組み合わせた場合だけでなく、どのようなシステムと組み合わせたときも同じである。例えば、物流倉庫管理システムと組み合わせた場合。この際の目標は総作業時間の短縮である。そのために、Hは作業員の作業の順番などを指示する(図5)。Hは、物流倉庫管理システムから作業結果のデータを毎晩受け取り、評価関数を改善して、翌日にもっと良い指示を出すようにする。日立の発表によれば、総作業時間を8%短縮したという(日経テクノロジーオンライン関連記事2)。