開発した音声情報検索システムの構成である。
開発した音声情報検索システムの構成である。
[画像のクリックで拡大表示]

 産業技術総合研究所(産総研)は,インターネット上の音声情報を検索するシステム「PodCastle(ポッドキャッスル)」を開発した(発表資料)。現在対応するのは日本語のPodcastのみで,ユーザーがPodCastleのサービス・サイトで探し出したいPodcast番組に関わるキーワードを打ち込んで検索すれば,関連候補をいくつか提示してくれる(PodCastleのサイト)。Podcastだけに絞ったのは,Podcastがインターネット上の代表的な音声データで,かつさまざまな内容の音声を含んでいるため。「Podcast番組では人が自由に話すので認識が難しく,Podcastの音声を認識できればほかの音声データも認識できると考えた」(産総研)という。

 現在検索できる番組は約310種類で,各番組は日付ごとなど,複数の放送が含まれているので,合計2万件ほどのPodcast番組を検索できる。検索する番組を増やすのはユーザーが行い,番組ごと放送はRSSで自動的に更新される。音声認識に対応するのは人が話す部分である。現状では歌声をテキスト化することはできない。

 PodCastleの特徴は3つある。第一にPodcastの音声データを音声認識技術によっていったんテキスト化し,ユーザーがキーワードを入力すれば,そのテキストからキーワードに合致した単語を検出して結果を提示できるようにしたこと。第2に自動学習によって新しい言葉を含む音声データが検索できること,第3にユーザーが音声認識後のテキストの誤りを修正でき,その修正結果から音声認識や検索性能の向上を図れることである。ユーザーの協力によって,「音声認識技術を育ててもらうアプローチ」(産総研)である。

 音声データをテキスト化してから音声データを検索するのは,音声データ自体を索引して検索できないためである。一般的には,音声データに付いているタグに基づいて音声データを検索しているという。タグを利用した従来手法だと,おおよその情報でしか検索できない,実際に話されている内容を検索できない,といった課題があった。いったんテキスト化すれば,こうした課題を解決できるとする。既に英語では音声データをテキスト化してから検索する技術は実用化されているものの,「日本語では初めて」と胸をはる。
  

学習機能で新語に対応

 音声認識技術自体の認識性能を向上させたものの,課題が残った。次々と登場する新しい言葉に対応するのが難しいこと,認識の誤りを完全になくすこと,である。新しい言葉の対応が難しいのは,事前に用意したデータベース上にある言葉しか認識できないからである。そこで,「サブプライムローン」や「iPS細胞」,「taspo」といった,今までなかったような言葉に対応できるように自動学習機能を追加した。具体的には,「Googleニュース」や,「Yahoo!ニュース」といったニュース・サイトを自動的に調べ,データベースにない語句をピックアップする。その語句の読み方を「はてなダイアリーキーワード」といったインターネット上の辞書サイトで自動的に調査する。これにより新しい語句とその読み方をデータベースに格納する。従来は,こうしたデータベース更新を手作業でしていたという。さらに,ニュース・サイトでは新しい言葉を検索するとともに,その用語の使われ方を前後の文脈から学習している。例えば「サブプライム」であれば,「アメリカのサブプライムローン問題」のように,前にはアメリカが,後ろには問題という語句が出やすいと認識するという。現在は約16万5000語をデータベースに格納している。

みんなで修正

 新しい言葉に対応させても,誤認識は残る。そこで今回,ユーザーが誤り箇所を発見し,修正できるようにした。修正が容易になるように,選択操作で訂正できる機能を備えた。可能性の高い言葉の候補が数種類表示され,この候補から正しい言葉を選択する。選択肢に正しい言葉がない場合は,ユーザーが直接テキストを打って修正する。ユーザーによる修正から,音声認識技術を高められるという。こうしたユーザーによる修正を繰り返すことで,認識率の向上を図れる。「不特定多数のユーザーが参加して,認識率を高めていく音声認識システムは今までにないもの」(産総研)とする。

 今後はまず,動画に検索対象を広げる予定である。このほか,英語を認識できるようにしたり,コール・センターや会議の議事録作成にも適用したりと,応用範囲を広げる考えだ。

 今回の音声認識システムは2008年6月12日から一般公開,実証実験が始まる。また,2008年6月14~15日に京都で開催される「第7回産学連携推進会議」でも実演する予定である。