《日経Robo》キヤノンが取り組んだディープラーニング技術とは

進藤智則

2017.06.10

この記事は日経Robotics 有料購読者向けの記事ですが
『日経Robotics デジタル版（電子版）』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

　画像認識^1）や音声認識^2）、自動翻訳、さらには画像や音声といった情報の生成^3-4）にまで広がり始めているディープラーニング（深層学習）。そんな飛ぶ鳥を落とす勢いのディープラーニングが、今度は移動ロボットの中核領域にまで波及し始めた。

　LIDARやカメラなどのセンサ情報を基にロボットの自己位置を推定したり、周囲の環境地図を作成したりする、いわゆる「SLAM（simultaneous localization and mapping）」技術へのディープラーニングの適用である。

　ドイツのTUM（Technical University of Munich）に在籍するキヤノンの技術者が、同大の研究者らと共同で開発した。その名も「CNN-SLAM」という技術である（図1）^5）。

図1 ディープラーニングと単眼vSLAMを組み合わせ

画像認識向きのディープニューラルネットワーク「CNN」で単眼画像から距離を推定し、その結果をvisual SLAMに入力して、より頑健な3次元復元を実現した。ドイツTechnical University of Munich（TUM）とキヤノンが開発した。写真は部屋内の復元結果。緑色の線はカメラの移動軌跡。（写真：TUM）

[画像のクリックで拡大表示]

　CNNとは、画像認識向きのディープニューラルネット（DNN）の名称である。このCNNを、カメラ映像を基に運動視差で3次元復元を行う「visual SLAM」技術^6）と組み合わせた。TUMはdirect型のvisual SLAMとして最高精度とされる「LSD-SLAM」を開発するなど、同技術の名門研究機関として知られる。世界トップ級のSLAMの精鋭研究者達がディープラーニング技術に目を付け、ついに成果を出した。

深層学習は不可欠

　SLAMには主に2種類の方式がある。（1）自動運転車のようにレーザーを当てて距離を測るLIDARを基にしたSLAM、（2）カメラを使い画像認識と運動視差で3次元復元をする「visual SLAM（vSLAM）」である（表1）。

表1 3次元復元（距離画像）の主な手法の比較

[画像のクリックで拡大表示]

　このうち、現在のロボットではLIDARを基にしたSLAMが主流である。AGVなどの搬送ロボットや一部のサービスロボットでLIDARによるSLAMは普及し始めている^7-8）。本誌が2017年4月号で報じたように、最近ではPepperにまでLIDARベースのSLAMが標準搭載され始めたほどだ^9）。

　一部のロボットで既にLIDARベースのSLAMが普及しつつある中、なぜ今、あえてディープラーニング技術をSLAMと組み合わせる必要があるのか。それは、将来のロボットを踏まえると、現状のLIDARベースのSLAMには不十分な点が多くあるからだ。一部で実用化されているとはいえ、社会が必要とするロボットを実現する上で満足行くような水準には達していない。この欠点を克服し、SLAMの水準を一段上に引き上げるために、ディープラーニング技術が重要な役割を果たす。詳細は後述するが、今回のキヤノンとTUMの成果は、その端緒となる取り組みだ。