今回開発した技術を使った検索システムの実証サイト
今回開発した技術を使った検索システムの実証サイト (画像のクリックで拡大)

 産業技術総合研究所(産総研)は,動画共有サイトなどのマルチメディア・コンテンツを音声によって直接検索する技術を開発したと発表した(発表資料)。この技術を使った検索システムの実証サイトを公開する(同システムの実証サイト)。インターネットでの応用のほか,コール・センターの通話録音システムの音声検索,大量のマルチメディア・コンテンツを利用する放送・教育分野での応用などを想定する。

 今回公開する検索システムは,インターネット上の動画共有サイトや音声サイトなどのマルチメディア・コンテンツに含まれる音声を,直接キーワードで検索できるもの。従来の検索システムでは必要だった音声認識用の単語辞書を使わないため,新たな固有名詞や新語を含む,どんな単語でも無制限に検索キーワードとして使用できる。さらに,インターネット上の新たなコンテンツをメンテナンスなしに,リアルタイムで検索対象にすることが可能。一般的なブラウザーからも利用できる。

 検索に用いるのは,音声検索で一般的に用いられる音素よりも細かく,かつ言語情報を保つ最小の単位として考案されてきた「音素片(SPS: Sub-Phonetic Segment)」。音素片に基づいて検索することで,検索処理の精度劣化が抑えられ,辞書を用いない検索が可能になったという。検索対象となるデータ・ベースと検索キーワードを,いずれも音素片の単位に分解・符号化し,その符号間のマッチングを数値化して照合を行う。この照合処理手法についても,独自の高速処理アルゴリズムを開発した。

検索システムの構成
検索システムの構成 (画像のクリックで拡大)

 辞書を用いることによる言語への依存がなくなったため,多言語や方言への対応が容易という。また,文字だけでなく,声でも検索キーワードの入力が可能。このため,高齢者や障害者などキーボードで検索語を入力することが難しいユーザーにも使いやすいサービスが可能になるとする。

 今後,産総研はユーザーからの試験利用を募ることで,このシステムの有効性の検証と実用化に向けた改良を進める。さらに,従来のテキスト・ベースの音声検索技術や,マルチメディア・コンテンツの分類・要約などの技術との融合を進め,より実質的なマルチメディア検索技術を開発する予定としている。

 なお,産総研はこの技術を,2008年10月20~21日に産総研つくばセンターで開催される「産総研オープンラボ」で公開する予定。

(上)マルチメディア・コンテンツの中から音声を使って特定の場面を検出した例,(下)通話録音データから特定の通話内容を検出した例
(上)マルチメディア・コンテンツの中から音声を使って特定の場面を検出した例,(下)通話録音データから特定の通話内容を検出した例 (画像のクリックで拡大)