前回は,五感のうち味覚を再現するセンサの開発状況を追った。今回は,古くから開発が進んできた音声認識技術の最新成果を解説する。音声認識を幅広い用途で実用化に供するカギを握る,音源分離技術などを取り上げる。連載の目次はこちら(本記事は,『日経エレクトロニクス』,2008年2月25日号,pp.75-78から転載しました。内容は執筆時の情報に基づいており,現在では異なる場合があります)

 今から数年前。米Microsoft Corp.が「Windows Vista」の発売に先駆けてアナリスト向けに新OSの音声認識機能を公開実演した時に,この「事件」は起こった注9)。実演者は,「ねえママ」という音声を認識させて,テキストを表示させようとした。ところが,「ねえ叔母さん」と表示された。実演者が口頭で指示して修正を試みた末,以下のようなその場にふさわしくない一文が現れた。「Dear aunt, let’s set so double the killer delete select all(叔母さん,殺し屋に2倍払って全部始末しちゃって)」。苦笑いの実演者は口に人さし指を当てて,聴衆に静かにしてくれるように頼んだ。

注9) この時の模様を録画したビデオがYouTubeに投稿されている(URLはhttp://www.youtube.com/watch?v=kX8oYoYy2Gc)。

音源分離がキーワード

 冒頭の出来事は,音声認識技術の難しさを端的に示す事例の一つだ。この分野で先端技術を持つMicrosoft社の技術を使っても,このような失敗が起きることがある。要は,認識対象になる音声と周囲の雑音を明確に分離する技術のハードルは高く,そしてまだ発展途上なのだ(図20)。

図20 聴覚センサ技術の進化の方向性 音源の位置を正確に把握し,複数の音源が発する音を聞き分ける聴覚機能の技術の開発が進んでいる。より信頼性が高く,使い勝手の良い電子機器のヒューマン・マシン・インタフェースを実現する可能性を開く。従来,聴覚の機能をつかさどるマイクは,実際の音を忠実に取り込むために音質などの向上が図られてきた。カー・ナビゲーション機器やパソコンなど一部の電子機器の入力補助としては,音声認識技術を組み合わせたヒューマン・マシン・インタフェースが利用されていた。しかし,人間の聴覚と比較すると,機械とのコミュニケーションを行うための手段としては,信頼性と使い勝手に問題を抱えていた。
図20 聴覚センサ技術の進化の方向性 音源の位置を正確に把握し,複数の音源が発する音を聞き分ける聴覚機能の技術の開発が進んでいる。より信頼性が高く,使い勝手の良い電子機器のヒューマン・マシン・インタフェースを実現する可能性を開く。従来,聴覚の機能をつかさどるマイクは,実際の音を忠実に取り込むために音質などの向上が図られてきた。カー・ナビゲーション機器やパソコンなど一部の電子機器の入力補助としては,音声認識技術を組み合わせたヒューマン・マシン・インタフェースが利用されていた。しかし,人間の聴覚と比較すると,機械とのコミュニケーションを行うための手段としては,信頼性と使い勝手に問題を抱えていた。 (画像のクリックで拡大)