エヌ・ティ・ティ・コムウェア(NTTコムウェア)は、ディープラーニング技術に基づく「Deep Learning 画像認識プラットフォーム」を2017年3月1日から販売する(リリース)。これまで人が目視でしてきた監視・点検などの業務効率化に役立てる。少ない画像で高速に学習できるため、用途に合わせた調整がしやすいという。

「リアルタイム人物検出」のデモ。検出した人の矩形領域と、人らしさの確信度を表示している。
「リアルタイム人物検出」のデモ。検出した人の矩形領域と、人らしさの確信度を表示している。
[画像のクリックで拡大表示]

 Deep Learning 画像認識プラットフォームは、任意の画像を用いてAI(人工知能)を学習し、作成したAIで画像の検出や分類ができるソフトウエア製品。画像の中から人や物体の領域を検出したり、画像を複数のクラスに分類したりできる。監視カメラでの不審者検出やインフラの劣化度合いの判定、製造現場での製品検査などの利用を想定する。

発表会では、画像の収集からAIの学習、未知画像の認識までの一連の流れをデモで見せた。
発表会では、画像の収集からAIの学習、未知画像の認識までの一連の流れをデモで見せた。
[画像のクリックで拡大表示]

 ディープラーニングをはじめとする機械学習では、学習に使用する画像セットの質が検出や識別の精度を大きく左右する。そのため、実用レベルのAIをつくるためには画像セットを変えながら学習を複数回繰り返す必要がある。そこで、学習を高速にするために、ニューラルネットワークの学習時間に影響するパラメーター「学習率」を、入力した学習画像セットによって動的に変化させる技術を取り入れた。2017年2月28日の記者説明会では、1クラス100枚の画像を約3分で学習するデモを実施。同社はこの技術の特許を申請中である。

 学習時間は学習に使用する画像の枚数に応じて増える。このため、少ない画像でも学習できるようにプラットフォームにはあらかじめ数千クラス、約150万枚の画像を学習した結果が入っている。これに新たな画像を組み合わせることで、顧客が用意する画像が少なくても高い精度の認識を実現している。

 このほか学習済みのニューラルネットワークの最終層に新たなクラスを追加することで、学習を1からしなくてもよい「fine-tuning(ファインチューニング)」と呼ばれる手法を採用。顧客による画像の収集が難しい場合、インターネット上の画像を簡単に収集できる仕組みも用意する。

 販売形態はインストール版とクラウド版の2種類。インストール版では「GeForce」シリーズなど米NVIDIA社のGPUを搭載したパソコンを用意する必要がある。インストール版の価格は初年度が500万円、2年目以降が100万円(税別)。クラウド上に画像をアップロードして使用するクラウド版は2017年度第1四半期からの提供を予定しており、価格は未定。