“見た目”を把握する顔認識技術で、人間の深層心理を知る

産総研発ベンチャー企業、サイトセンシング代表取締役社長の平林隆氏

大久保聡

2015.01.20

　産業技術総合研究所において事業化を視野に研究開発が進む技術や、産総研発のベンチャー企業が展開する技術の中から選りすぐりの3テーマを紹介する本連載。2回目の今回、顔認識技術を手掛ける産総研発ベンチャー企業のサイトセンシングを紹介する（連載1回目へのリンクはこちら）。

　顔認識技術はセキュリティー用途など以前から活用されてきており、手掛ける企業も多い。多くのプレーヤーがそろう中、2012年創業というまだ設立間もないサイトセンシングが名乗りを挙げた。同社が売りにするのが、リアルタイムで20人以上を同時に顔認識できる高速性と、人物の正確な年齢・性別を割り出すのでなく“見た目”を判断すること、そして笑顔度合いが分かることだ。いわば、従来が個人を特定する顔認識とすれば、サイトセンシングの技術は多数の人物の分布を把握するための顔認識である。これにより、公共施設や商業施設に集まる人たちやサイネージなどに引き寄せられる通行人などの属性分布を容易に把握でき、各種マーケティングに活用できるという。

　サイトセンシングの顔認識技術の特徴や狙いについて、同社代表取締役社長の平林隆氏に聞いた。外資系コンサルティング企業のコンサルタントであった平林氏は、産総研で開発された顔認識技術の事業化を推し進めた人物である。（聞き手は、大久保聡＝日経テクノロジーオンライン編集委員）

――顔認識技術を使ったサービスを提供する企業は少なくない。サイトセンシングの顔認識技術の特徴を知りたい。

サイトセンシング代表取締役社長の平林隆氏。後ろに見えるディスプレイは、後述するデジタルサイネージ・システム

平林氏　我々が提供するソフトウエア「Face Grapher」は、カメラで捉えた映像を解析して映っている人物の顔を検出し、年齢と性別、そして笑顔度合いを自動計測する。

　確かに、顔認識技術を使ったサービス自体は決して新しいものではない。ただし、以前から手掛ける大手企業はいくつかある一方で、顔認識技術を使ったサービスがあまり事業として成功しているとは聞いていない。我々のソフトウエアを使うと、一度に20人を超える人物をリアルタイムで検出できるのがポイントだ。この特徴を活用することで、こうした閉塞感を打破できるのではないかと考えている。

図1　 Face Grapherの特徴

[画像のクリックで拡大表示]

――これまでの顔認識技術でも多人数を検出できたのではないか。

平林氏　我々の製品の方がより多くの人物に対して高速に検出できる。なぜ、そのような特徴が生まれるかというと、顔認識の考え方が違うからだ。既に製品化している大手企業をはじめ多くの企業や研究機関が手掛ける顔認識技術は、一人の人間を1対1で正確に調べることを目的にしている。例えば、映像で捉えた人物の顔器官を正確に検出し、パスポートに載る写真と同一人物であるか、指名手配中の犯罪者であるか、といった具合だ。

　このような技術は、良く言えば正確だが、悪く言えば時間がかかってしまう。判別するのに2～3秒も要することはざらである。従って、一度に何十人も押し寄せてくると、元々1対1の認識を基本にしているので、映像に映る人物の認識と登録情報との照合処理がスタックしてしまう。

　我々が手掛けるFace Grapherは、こうした従来の顔認識技術と逆である。一人ひとりを「どこの誰」といった正確な検出はできないが、10人でも20人でも同時に年齢・性別・笑顔度合いを自動計測できる。年齢分布とか男女比とか、そして笑っている人の割合などを速く大量に得られ、これがおそらく他にない決定的な特徴だ。ある大手企業の顔認識技術では1画面当たりの属性推定数は5人以下程度、演算処理速度は2フレーム/秒程度もかかる。それに対し、我々の技術では一度に20人超、演算速度は7フレーム/秒で済む。