前回は,人間の耳に当たる機能を機械に持たせるための音声認識技術の最新成果を概観した。最終回の今回は,人間の視覚を上回る機能を目指した研究開発を取り上げる。1万フレーム/秒相当の動画を数十mWで実現するという目標を掲げた研究などが進んでいる。連載の目次はこちら(本記事は,『日経エレクトロニクス』,2008年2月25日号,pp.79-83から転載しました。内容は執筆時の情報に基づいており,現在では異なる場合があります)

 視覚センサ,特にセンサ素子部分は,既にさまざまな撮像素子として他の五感センサに比べて圧倒的に実用化が進んでいる。顔認識や笑顔認識のような画像認識技術も進化を続けている。しかし,その大部分は人間の視覚にいかに似せるかを追求したため,人間の感覚を超える高性能の追求という点では一部を除いて今のところ進展は見られないのが現状である。特に,超高速で動く被写体への対応や情報処理でそれは顕著である。

「高精細で高速」はまだこれから

 人間の感覚を超える性能を追求する視覚センサの中で技術開発が進んでいるのは,赤外線だけ,紫外線だけといった可視光外の電磁波専用の撮像素子,あるいは光子1個レベルの非常に微弱な光の検出,1/1万~1/100万分の1秒といった極めて短時間露光での撮影技術などである。これらの技術は医療や自動車の衝突実験など各種開発現場で高い需要がある。しかし,高精細で高速の画像認識といった総合的な性能を求めると,途端に限定的な機能の製品しか選べなくなる(図24)。

図24 撮像素子は動画の高速・高精細化に限界 性能面で先端を走る浜松ホトニクスの撮像素子でも,動画のフレーム数は1000万画素で10フレーム/秒足らず。一方,フレーム速度が速いPhotron社の製品でも高速フレームの場合は扱える画素数が少なくなる。超高速カメラは数十秒分の記録しかできない。これらの原因には,画素アレイを走査するのに時間がかかる点,データ伝送速度や記録容量に限界がある点などがある。
図24 撮像素子は動画の高速・高精細化に限界 性能面で先端を走る浜松ホトニクスの撮像素子でも,動画のフレーム数は1000万画素で10フレーム/秒足らず。一方,フレーム速度が速いPhotron社の製品でも高速フレームの場合は扱える画素数が少なくなる。超高速カメラは数十秒分の記録しかできない。これらの原因には,画素アレイを走査するのに時間がかかる点,データ伝送速度や記録容量に限界がある点などがある。 (画像のクリックで拡大)

 例えば,1000万画素の解像度を持つ動画はせいぜい10フレーム/秒がやっと。逆に,1000フレーム/秒では100万画素が高精細の上限。しかも,数十秒という短時間の記録がやっとで,リアルタイムの画像認識などはできていない注10)

注10) 超スローモーション撮影機能で知られるPhotron社のカメラには,1000フレーム/秒を超えるフレーム速度に対応したものもある。しかし記録メディアの限界で,録画時間は数~数十秒と短い。消費電力は90W。価格は1台約1000万円前後である。

 これには大きく三つの理由がある。一つめは,撮像素子の反応速度に限界がある点。画素数が増えてくると1回の走査に時間がかかり,フレーム速度をなかなか上げられなくなる。1000万画素で10フレーム/秒の場合,1画素の読み出しにかけられる時間は10ns(1億分の1秒)と極めて短い。

 二つめの理由は,大容量の画像データを撮像素子からパソコンなど画像処理システムへ送る伝送路の帯域に限界がある点。100万画素で1000フレーム/秒の場合,1画素の情報が10ビットと少なくても伝送速度には10Gビット/秒が必要になる。これは現在利用可能な伝送技術のほぼ上限で,たとえ実現できても製造コストが跳ね上がる。

 三つめは,メモリと画像認識速度の限界である。10Gビット/秒の伝送速度を超えるような大容量データは,たとえ機器が1Tバイトのメモリを搭載していても約13分しか記録できない。画像データをリアルタイムに処理しようとしても,チップ上のキャッシュだけで済ますのは困難。主記憶にデータを出し入れすると,伝送速度以外に伝送遅延もネックになる。