NECとNECエレクトロニクスは,携帯電話機向けアプリケーション・プロセサ上で,短時間で音声認識が可能なソフトウエアを開発した( 発表資料)。今回開発したモデルでは,数千語から数万語クラスの辞書を備えており,単語単位ではなく,通常の会話で使用する自然語をリアルタイムに認識できるという。

 利用したプロセサは,チップ上に複数のCPUコアを搭載する「MP211」(NECエレクトロニクス製)である(Tech-On!の関連記事)。動作周波数は200MHz。今回両社が開発した技術では,音声認識に関する一連の処理を複数のステップに分割,それをマルチコアのMP211上で並列処理することで認識処理を高速化した。具体的には,「入力した音声と参照する音モデルの類似度の計算」「探索範囲の絞り込み」「絞り込んだ範囲からの最適単語列の探索」の3ステップに分割する。これにより,認識処理全体を3段のパイプラインとして再構成する。それぞれの処理は各CPUコア上で同時に実行する。

 両社は今回の技術によって,携帯電話機単体でリアルタイムに動作する音声検索アプリケーションを実現できるとしている。音声認識の用途として両社が想定しているのは,携帯電話機の電子マニュアルの検索である。例えば,ユーザーが「メール・アドレスの変え方を教えて」と発声すると,電子マニュアルから関連するページを即座に検索できるシステムを試作した。

 一般に,音声認識処理はマイクロプロセサに高い演算能力を必要としていた。このため,NECは従来,電話回線を経由して遠隔地のサーバで認識処理させるような手法を想定していたが,回線接続のための処理が複雑になる,時間がかかるといった問題があった。