この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 深層学習(ディープラーニング)が大きく成功した一分野が画像認識である。この数年で画像分類や物体検出、セグメンテーション(画素ごとにクラス分類するタスク)の精度が飛躍的に向上した。従来の画像認識技術は、SIFTやHOGなどに代表されるような専門家が設計した特徴を使い、認識を行っていた。これに対し深層学習は、特徴を学習し、特徴計算から最終的なタスク(分類、検出など)まで一貫して同時に学習できる。

 画像をデータとみた場合、2次元上(x, y)の各画素に複数チャンネルc(白黒の場合1、カラーの場合は3)を持った(x, y, c)の3次元データ(白黒の場合)と考えることができる。ニューラルネットの各層はこのような3次元データから3次元データ(入力層以外はチャンネル数は任意、例えば32や512など)への変換を繰り返していき、タスクに応じた値に変換を行う。

 現在、深層学習による画像認識では、CNN(畳み込みニューラルネット)が広く使われている。CNNは全てのニューロン間をつなげた総結合層と比べて2つの特徴がある。

 1つ目は、CNNでは層間の接続が局所的であることだ。3x3、7x7といったカーネルと呼ばれる領域の全てのチャンネルと、出力の1つのチャンネルがつながっている。複数チャンネルを出力する場合は、出力チャンネル数分、このような結合がある。このつながり方は、画像では近い位置の情報が影響し合うという事前知識を使って考案されたものだ。

 もう1つの特徴は、同じ重みを画像内の違う場所で共有することだ。これは、写っているものが画像内で移動しても、その意味は大きく変わらないという、画像の移動不変性に関する事前知識を使っている。これにより、学習対象の重みのパラメータを減らすことができ、学習効率が上がるだけでなく、計算効率も上がる(必要メモリバンド幅を減らせる)。この畳み込み層を通じて、CNNに入力された画像は次第により小さく、チャンネル数が大きい画像に変換されていく。例えば、画像分類の場合、最後の層では大きさ1x1でチャンネル数は数百から数千の特徴に変換され、これを使って分類を行う。

コンテストにより毎年認識率が向上

 深層学習による画像認識の進化の歴史を、「ILSVRC(ImageNet Large Scale Visual Recognition Challenge)」という画像分類コンテストの優勝チームから紹介しよう。

 このコンテストでは画像分類や、物体検出などのタスクがある。例えば、画像分類タスクでは、与えられた画像が1000クラスのどれに相当するかという分類問題を扱う。また進化の様子が分かるように優勝チーム以下、上位5位のエラー率を付記する(表1)。ただし、タスクは主催者により毎年微妙に変えられており、精度も手法以外の工夫(ハイパーパラメータの調整や学習手法など)で変わるため、あくまで参考程度にみてほしい。

表1 ILSVRCの上位5位の成績
表1 ILSVRCの上位5位の成績
[画像のクリックで拡大表示]

 2012年のImageNetコンテストはカナダUniversity of TorontoのAlex Krizhevsky氏、Ilya Sutskever氏、Geoffrey Hinton氏らのSupervisionが優勝した(15.3%)。彼らは単に優勝しただけでなく、2位(26.2%)以下に大差をつけたため、世の中に深層学習の登場を鮮烈に示した。

 この3人はその後、深層学習の中心人物として活躍している。この時、Supervisionで使われた畳み込み層とプーリング層を交互に繰り返すニューラルネットは、開発者の名前からAlexNetと呼ばれており、現在も多くのCNNで使われる祖先のような存在となっている。

 ちなみにその後の研究では、プーリング層を使うと情報が落ちてしまう、または情報が偏ってしまうという問題が分かってきた。このため最近では全て畳み込み層で処理し、プーリング層は計算量削減の目的のみで使うことが多くなっている。

2013年以降、上位勢は全て深層学習

 2013年は上位が全て深層学習ベースの手法になり、米New York UniversityのMatthew Zeiler氏によるClarifaiが優勝した(11.7%)。Zeiler氏はニューラルネットの学習を調べるために逆畳み込み(deconvolution)を使い、ニューラルネットのモデルを最適化した。その後、逆畳み込みは画像生成やセグメンテーションでも広く使われるようになった。

 2014年のコンテストでは米グーグルによるGoogLeNet(6.7%)が優勝した。GoogLeNetは、Inceptionと呼ばれる異なるカーネルサイズを持つ畳み込み層を組み合わせて、次の層のチャンネルを計算するという特徴がある。他のCNNに比べて計算量を小さくできる。また、2位の英Oxford UniversityのAndrew Zisserman氏らによるVGG(7.3%)も注目されている。VGGは3x3と1x1の畳み込み層を繰り返し、11~17層といった深いCNNを利用する。VGGは構造が非常に単純で、メモリ使用量も少ないため広く使われている。

 この後、グーグル、マイクロソフト、中国Baidu社の3社で最高精度の更新競争がしばらく続く。こうした中で、深層学習が人間による分類性能の目安の5%を切り、「機械の精度が人を超えた」とニュースになった。ただし、この5%は個人が試しに測った精度であり、人間でも一定程度の訓練をすれば3%程度は達成されるだろうといわれている。

 つい先日、12月10日に結果が出た2015年のコンテストで優勝したのは、Microsoft Research Asia(MSRA)で、152層からなるCNNを利用した(3.6%)。これだけ深いニューラルネットは今まで学習することができていなかったが、今回、同社はResidual Netと呼ばれる層を利用することで、深い層でも学習を容易にした。Residual Netは1000層を超える場合でも学習できることが示されている。2位のグーグルもGoogLeNetを改良してきており、恐らく統計的にはほぼ差の無い精度を達成している(3.6%)。

キャプション生成など他のタスクでも成功

 2012年の深層学習の登場以来、毎年エラー率が半分近くに下がるということからも、深層学習による画像認識の進化がいかに急速か分かるだろう。この他の物体検出、セグメンテーション、動画分類、画像からのキャプション生成といったタスクでも、深層学習による画像認識は広く成功している。

 深層学習による画像認識は、産業界でも広く利用され始めている。自動車のADAS(先進運転支援システム)や自動運転における車両や人の認識、ロボットにおける物体認識などである。これらの用途の場合、リアルタイム性、携帯機器でも動くような省メモリ化、省計算量化、省電力化(データの移動を少なくする)といった工夫が多く研究されている。

岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。