第1部<市場動向編>
クラウドの利用で飛躍
用途はスマホ以外にも拡大

最近、音声インタフェースを使うサービスがスマートフォンなどに続々と搭載され始めた。技術やそのインフラがこの2~3年で、人間が「使える」と認識するレベルに達した結果だ。将来的には、利用時の違和感が消えてキーボードを超えるインタフェースになる可能性もある。

スマートフォン、家電に続々搭載

 最近、「Natural User Interface(NUI)」と呼ばれる、キーボードなどに比べて、より直感的に使えるユーザー・インタフェース(UI)に注目が集まっている。例えば、音声、視線、ジェスチャー、そして脳波などを使う技術だ。その中でも既にさまざまな場面で実用化され、しかも普及が加速しているのが音声インタフェースだ。

 音声インタフェースが特に一般消費者の注目を浴びるようになったのはやはり、米Apple社の音声インタフェース・サービス「Siri」の登場が大きい。2011年10月に発売したスマートフォン「iPhone 4S」に初めて搭載した。Siriを使うことで、ユーザーがiPhoneに対して音声を使って対話形式で検索や電話、メール作成などの指示が出せる。

 これをきっかけに、音声インタフェース機能を搭載するスマートフォンや家電製品が急激に増えてきた。例えば、2011年3月にはNTTドコモがSiriと同様な音声インタフェース・サービス「しゃべってコンシェル」を自社端末向けに開始。2012年11月には、KDDIが「おはなしアシスタント」の提供を始めた。

 その他にも、スマートフォン端末メーカーが独自に実装したり、音声インタフェース関連のソフトウエア開発会社が、アプリケーション・ソフトウエアを無料で提供したりする例が相次いでおり、スマートフォン1台で数種類の音声インタフェースが使えることも珍しくなくなってきた。

人類最古のインタフェース

 音声インタフェースはNUIの中で、汎用性という点では最も有望なUI技術といえる。

 視線やジェスチャーは、それらだけで伝えられる情報量や情報密度に限界がある。これらが単独でキーボードやタッチ・パネルを超えるUIになることは考え難い。

 一方、音声インタフェースは、伝えられる情報量の点でキーボードやタッチ・パネルに並ぶ。そして何より、人間同士の間では、音声が人類最古かつ現在も毎日欠かさずに使われているインタフェースであるからだ。ほとんどの人は、家や職場で言葉を使ってコミュニケーションを図っている。「話す相手」がスマートフォンや家電、その他のマシンやロボットに広がっていく可能性は十分にある。

『日経エレクトロニクス』2012年12月24日号より一部掲載

12月24日号を1部買う

第2部<実装技術編>
あなたのスマホの実装はこれ
1点に注力して差異化図る

スマートフォンでの音声インタフェースは、サービスごとに実装が大きく異なる。この違いを調べることで、各サービスが注力する機能やサービスの特徴、そして各技術の最新動向が見えてくる。

音声インタフェースの主要機能の開発元はサービスごと、端末ごとに異なる

 音声インタフェースを構成する主要機能は、「音声認識」、対話型エージェントなどを含む「意図解釈」、「音声合成」、そして「検索または知識データベース機能」の4機能に分けられる。最近発売されたスマートフォンでは、通信事業者ごと、端末ごと、あるいはアプリケーション・ソフトウエアごとに、これらの機能の開発元の組み合わせが異なる。各機能の組み合わせが異なる複数サービスを1台のスマートフォンで利用できることも多い。多くのクラウド型音声インタフェースは、情報処理のほとんどをサーバー側で実行するため、スマートフォンのハードウエアに依存する部分が少ないからだ。

サービスの特徴を反映

 各機能の開発元の組み合わせがサービス事業者やソフトウエアごとに違うのにはいくつか理由がある。まず、音声認識については、自社開発している例は少ない。これは技術の専門化や音声データの寡占化が進んできたために、端末メーカーや通信事業者による内製が難しくなってきたことが挙げられる。

 次に、サービス事業者によってクラウド型のシステム構成が異なることも機能の開発元が異なる理由の一つだ。さらには、サービス事業者がそのサービスで何を重視するかも、開発元の違いとなって出てくる。

 実際、最も重視する機能はサービス事業者自身が内製しているケースが多い。そこにそのサービスの特徴が現れていると考えられる。

 例えば、米Apple社の「Siri」において、Apple社(旧米Siri社)が自社開発したのは意図解釈機能だけのもようだ。しかし、その機能こそが、Siriが、それまでの音声インタフェースと一線を画すポイントでもあった。

『日経エレクトロニクス』2012年12月24日号より一部掲載

12月24日号を1部買う

第3部<研究開発編>
究極の機械の「耳」
飲み屋や会議の話も認識へ

音声インタフェースを人間らしくするためには、人間の「耳」に当たる音声認識技術が重要になる。現状では、語彙がまだ足りない。雑音がある環境や、くだけた話し言葉にも対応できない。研究開発もそこに焦点を当て始めた。この課題を乗り越えられれば、用途は大きく広がる。

音声認識には改善の余地が大きい

 音声インタフェースの性能を示す指標として、最近は「タスク達成率」という言葉が用いられている。タスク達成率とは、音声インタフェースの利用者が発した言葉の意図を正しく解釈し、目的のタスクに導けるかどうかを示す指標である。

 大まかには、音声認識の成功率(音声認識率)と意図解釈の成功率、そして知識データベースの検索のヒット率の積で表せる。つまり、それらのどれか一つの性能が低くければ、音声インタフェースは満足に機能しないのである。

ボトルネックは音声認識

 この中で、最も重要でしかも最大のボトルネックになっているのが音声認識技術である。音声認識は、音声インタフェース全体の基盤であり、解決すべき課題が多いからだ。

 意図解釈の技術者の中には、音声認識率が低くても、急速に進歩している意図解釈や対話型エージェントで十分カバーできるようになるという意見もある。しかし、音声認識率があまりに低い場合は、対話型エージェントをいかに工夫してもタスク達成率を実用的な水準に高めることは難しいだろう。

『日経エレクトロニクス』2012年12月24日号より一部掲載

12月24日号を1部買う