[画像のクリックで拡大表示]

 オムロンは、ビデオカメラで人の上半身を写した動画などから、その人のジェスチャーを認識する「ハンドジェスチャー認識技術」を開発した(ニュースリリース)。顔の認識技術と、手や指の位置、形状、動きを認識する技術を組み合わせた。顔の位置や向きなどと、顔と手の位置関係や手の形から、ジェスチャーの始まるタイミングを特定できる。従来技術では、ジェスチャー認識の認識開始時に手振りなどの合図動作が必要だったが、新技術ではこれが不要になり、より自然に人の意図を理解した認識が可能になるという。開発した技術は、ソフトウエアなどで提供し、2012年内の商品化を目指す。

 ジェスチャー認識は、ユーザー・インタフェース技術の1つとして開発されている。デジタル・カメラやタブレット端末、スマートフォン、パソコン、スマートテレビなどでの利用を想定している。ジェスチャーでテレビを操作したり、ピースサインでビデオカメラの撮影開始を指示したり、というように、自然な行動で機器を操作することが可能になる。手の形状をモデル化することで、高速でメモリ使用量の少ないアルゴリズムを実現したとしている。

 オムロンはこれまで、顔画像認識技術「OKAO Vision」をデジタル・カメラや携帯電話機、自動販売機などに展開してきた(Tech- On!関連記事)。同技術によって、顔の位置を特定する顔検出や笑顔推定、視線や目つぶりの検出、まぶたや口の開閉の判定、年代や性別の推定などが可能になる。この顔画像認識技術とジェスチャー認識技術を組み合わせている。

 これまでOKAO Visionは、主に撮影や撮影した映像を見たり楽しんだりすることに活用されたきた。今回ジェスチャー認識技術と組み合わせることで、さまざまな電子機器を手軽に操作する「使う楽しみ」を提供したいとする。

 タブレット端末といった近距離でジェスチャー操作する場合や、テレビのようにやや離れて操作する機器に向けて、ジェスチャー認識可能な距離を10cmから数mにまで設定している。画素数がVGA以上のカメラで利用可能。カメラで撮影した手の大きさが縦40画素、横40画素であれば、動きを検出できるという。検出できるのは、手を上下左右に振る動きや指1本の動き、指2本を使った「ピースサイン」である。

 ジェスチャー認識技術の実現手法について詳細は明かさないが、「統計的識別手法」と「モデルフィッティング技術」を利用した。前者は、大量のサンプル画像を基に、共通する色や形状を手の特徴として抽出するもの。後者は、サンプル画像を基に手の形状をモデル化し、モデルと類似する形状かどうかを判別する技術である。今後、検出できる動きや形を増やしていく考えだ。

 さまざまな機器で動作するように、高性能なハードウエアをあまり要求しない仕様にしている。動作周波数が1GHzでシングル・コアのプロセサ(米Qualcomm社の「Snapdragon」を仕様)で、手の動きを30フレーム/秒で検出できるという。利用するメモリ容量も1Mバイト未満とする。

 OSに関しては、Windows XP/7の他、Anroid OSやiOSなどに対応する。

 なお、詳細については、2012年6月6~8日にパシフィコ横浜で開催される「第18回 画像センシングシンポジウム(SSII2012)」で発表する予定である。