「いちばんちかいえきはどこですか」と読み上げた時の認識結果である。
「いちばんちかいえきはどこですか」と読み上げた時の認識結果である。
[画像のクリックで拡大表示]
サーバ上の翻訳システムを介して,英訳結果を読み上げたwavファイルを入手し,再生する。
サーバ上の翻訳システムを介して,英訳結果を読み上げたwavファイルを入手し,再生する。
[画像のクリックで拡大表示]
携帯電話機向けアプリケーション・プロセサ「MP211」の評価ボードに実装した。
携帯電話機向けアプリケーション・プロセサ「MP211」の評価ボードに実装した。
[画像のクリックで拡大表示]

 NECは,携帯電話機で動作する音声認識技術の詳細について,2005年9月7日~8日に開催される第4回情報科学技術フォーラム(FIT2005)で発表した。同社は2005年1月,自由文の連続発声に対する音声認識を可能にする技術を開発したと発表しており,今回はその実現手法の詳細を明らかにしたもの。現在の携帯電話機に実装されている音声認識の水準は,単独で発声した単語だけを認識する程度にとどまる。しかも認識できる単語数はせいぜい数百語である。ユーザーが連続して自由に発声した言葉を認識できるようになれば,入力インタフェースとしての適用範囲が広がるとNECはみる。この技術は既に,いくつかの具体的な用途を想定して試験的に実装済み。例えば携帯電話機の説明書(マニュアル)を検索する機能や,旅行中に使う会話をネットワーク上のサーバと連携して翻訳するシステムなどがある(2005年1月のNECのプレスリリース2005年1月のTech-On!の関連記事)。

 携帯電話機に実装するべく,連続音声中の単語の特定に要する演算量を大幅に削減する手法を新たに考案した。単語を特定するために実行する単語列検索は,連続音声認識の演算量において最も支配的な要因である。これまでにも演算量を削減する手法は提案されているが,認識精度が低下する課題があった。NECが導入した手法では,探索する単語数を効率よく削減しつつ精度の低下を防ぐという。単語列検索の処理では通常,音声スペクトルを10ms程度に細かく区切った情報を利用して検索したり,探索する単語数を削減したりする。その際に現状では,細切れの情報を発声の始まりから終わり方向に並べて処理する。NECはこれに加えて,発声の終わりから始まり方向に並べた情報も利用するようにした。同社はこの手法を「先読み処理」と呼ぶ。

 試作システムは,NECエレクトロニクスが開発した携帯電話機向けアプリケーション・プロセサ「MP211」の評価ボードに実装した。MP211は3つのCPUコアと1つのDSPコアを搭載したマルチコア型マイクロプロセサで,今回の音声認識技術でも並列処理を活用している。「先読み処理で探索範囲を削減する手法は並列処理と相性がいい。マルチコア型プロセサの利用も,リアルタイムの連続音声認識の実現を支える要素の1つ」(NEC メディア情報研究所 音声言語 研究部長の奥村明俊氏)という。具体的には音声認識の処理を3つに分割し,3つのCPUコアにそれぞれを割り当ててパイプライン処理するようにした。分割した3つの処理とは「入力した音声と参照情報の類似度の計算」と「探索範囲の絞り込み(先読み処理)」,「絞り込んだ範囲からの最適単語列の探索」である。

 NECがFIT2005で発表した講演番号はLG-003である。同社は関連する技術開発の成果について,2005年9月29日~30日に横浜国立大学で開催する第169回 自然言語処理研究会でも発表を予定する。