NTTドコモの「しゃべってコンシェル」の概略。音声入力による対話型エージェントを用いたUIを採用した。機器側の応答がユーザーの意図と異なる場合に配慮して、上位3テーマを常に表示するなどの工夫を加えた。
NTTドコモの「しゃべってコンシェル」の概略。音声入力による対話型エージェントを用いたUIを採用した。機器側の応答がユーザーの意図と異なる場合に配慮して、上位3テーマを常に表示するなどの工夫を加えた。
[画像のクリックで拡大表示]

「キーワード検索から対話型UIへのパラダイム・シフトが起きている。一般の人が誰でも検索エンジンを使うわけではない」。こう指摘するのは、NTTドコモのサービス&ソリューション開発部長(当時)を務める栄藤稔氏だ。同社は2012年3月、音声入力UIを用いた対話型エージェント・サービス「しゃべってコンシェル」を開始した(図)。米Google社の携帯端末向けソフトウエア基盤「Android」を搭載したスマートフォン向けに、無償で提供するアプリケーション・ソフトウエア(以下、アプリ)である。

 話し言葉で要件を入力すると、その音声データがサーバーに送信され、音声認識や自然言語処理を組み合わせた意味理解の処理を実行する。特徴は、その処理結果を基に、所望のWebサービスを検索したり、端末の機能を呼び出したりする対話型のエージェント機能を提供する点だ。例えば、「近くのレストランを調べて」と端末に話しかけると、基地局情報からユーザーがいる場所を判定し、「溜池山王のグルメ情報をお調べします」という回答と共に近辺の飲食店情報を表示する。

 こうした対話型のUIは、米Apple社の音声入力UIサービス「Siri」をはじめ、世界的に実用化が活発になっている。そこで重要になるポイントは、「ユーザーの入力に対して、どれだけ適切な回答を返せるか」である。これは音声入力に限らない。ジェスチャーなどの他のNUI技術にも共通した課題だ。

課題の一つは、入力データの意味を理解する認識精度を高めることだ。入力した身振り・手振りや言葉などの意味を取り違えては、適切な回答は返せない。これについては、インターネット上のデータベースの活用で精度向上が進むとの見方が強い。特に、現在進行形で精度が高まっているのは音声認識の関連分野である。

ただし、どんなに巨大なデータベースを用いても、現状では音声認識などでユーザーが意図した100%の正解が得られるとは限らない。認識や入力の誤りが生じたり、ユーザーの問いに対する理解が不確実だったりする可能性がある。その場合には、UI側が問いの内容を確認したり、問い直したりする過程が必要だ。実は、この処理がUI開発では最も重要と指摘する声は多い。

 この数年、こうした課題を解決する技術として関心が高まっているのが、POMDP(partially observable Markov decision process)と呼ばれる手法だ。複数の仮説を用意しておき、強化学習によって確率的にUI側の対応をモデル化する。ここにきて、多くの研究者が対話型エージェント機能の開発にこの手法を用いている。

栄藤氏は11月7日のセミナーに登壇します。詳細はこちら