AIスピーカー、ここを工夫すればもっと「賢く」なる

UI・UX専門家の見方（下）

宇野麻由子

2017.12.04

　AIスピーカーが登場したことで、音声のやり取りによる「音声インターフェース」が新たなUI（ユーザーインターフェース）として定着するのでは、との見方がある。一方、現時点では実用性に疑問の声も多い。AIスピーカーの課題と今後の発展の可能性はいかに。各種機器のUI・UX（ユーザーエレクスペリエンス）を専門に手掛けるソフトディバイスを率いる同社代表取締役の八田晃氏に聞いた。

ソフトディバイス代表取締役の八田晃氏

　AIスピーカーを実際に使ってみた第一印象は「まだまだコマンドライン（キーボードだけで操作する画面上の入力行）レベル」というものだった。

　コマンドライン的な音声入力に対応している機器といえば、カーナビなど結構前からある。カーナビは目的が決まっていて、地名を除くとコマンドも限られていた。AIスピーカーはそこから進化し、より自然な言葉を理解しもっと広く使えるインターフェースとして登場したということだったが、現時点ではやはり本質的には変化し切れていないことを感じる。まだまだ使っていてAIスピーカーがコマンドとして受け入れられる言葉を探している感覚が拭えない。

　例えば、開始語として固有の名前（「OK、Google」や「Clova」）を呼ばせるということは、AIスピーカーは連続的な人の会話の中で自分に向かって話しかけられていることを判断できていない状況を示している。従来の機器の音声入力開始ボタンを押す行為に対して、本質的に変わっていない。

　開始語の認識率自体は非常に高いが、固有名の呼びかけが必要という意識がある限り、ユーザー側にはそれなりの心構えが必要になってしまう。マイクに組み込まれた高精度な「ビームフォーミング」と組み合わせて、あるいは単純な入力音量のしきい値を使って（多少のミスはあるかもしれないが）、会話の流れから「ねえ」や「ちょっと」と言った呼びかけにも反応してくれるだけで、ずいぶん受容性の印象は違うはずだ。

　また、基本的にリクエストは一度に言い切らなければならない。会話をやりとりしながらリクエストの精度を高めることができないのだ。「OK、Google。近くのイタリアンのレストランを教えて」「〇〇町の何々というお店です」の回答に続けて「営業時間は？」とは聞けないのだ。改めて「OK、Google。営業時間は？」と聞いても、開始語によって一旦リクエストが初期化されているのか、答えられない。

　回答後に一定時間入力を受け入れること、1つ前の回答情報を次のリクエストの優先照合情報として残すことだけでも、操作感がグッと高まるだろう。

　まして音声UIでは、ユーザーは何が受け入れられているのか分からない。機器に対して探りを入れるのも、音声でやるしかない。失敗すると「タイミングが悪かったのかもしれない」などと考えて何度かトライしてしまうこともある。しかし、入力音量の閾値が問題なのか、やり方として大はずれなのか、GUIのように提示されないので原因が分からず、ユーザーは”Bad Experience（悪い体験）”を積み重ねる事になる。回答可能かどうか以前に、入力そのものへの基本的なフィードバックがもう少し欲しい。

　なお、LINEの「LINE Clova WAVE」（以下、Clova）は回答後の連続入力自体には対応しているようだ。ただし、特定のシナリオモデルに沿っているのか、期待したような回答はうまく返って来ず、やり取りがチグハグになることが多い印象だ。

　回答側もまた、一度のリクエストで情報を言い切ろうとするので概して回答が長くなりがちだ。お店の住所など、視覚（ディスプレー上）では問題ないようなものでも、読み上げを聞くのは結構な負荷になる。

　Clovaに「〇〇について教えて」と聞いてみると、Wikipediaの概要部分を頭から終わりまで一本調子で読み上げた。途中で「もういいよ」と言っても止まらない。改めて開始語を言い、続けて「止めて」と言う必要がある。また「ありがとう」のように、お礼で終止を表すような言葉では止まらない。

　まず短めに答えて「続けますか？」と聞いてくれれば、かなり賢く見えるだろう。そのためには、コンテンツ側の対応、つまり音声情報に適した「短縮化」や「分節化」も必要だ。またUIの原則として、機器の動作やコンテンツの再生を「止める」事に関してできるだけ幅広い手段を提供したい。