対話AIに活かせ、「キャラ大国」日本の強み

内山育海

2018.01.12

　「対話の中でも“雑談”が一番難しい」――。AI（人工知能）を用いた対話システムや関連製品の開発者たちが、口をそろえて言う言葉だ。雑談を含む「自然な対話」ができる人工知能を実現するカギは何か、対話AIは今後どのように進化していくのかについて、NTTドコモの音声エージェント「しゃべってコンシェル」の対話エンジン開発などを手掛けてきた東中竜一郎氏（日本電信電話メディアインテリジェンス研究所 NTTコミュニケーション科学基礎研究所知識メディアプロジェクト知識言語基盤技術グループ主任研究員）に聞いた。東中氏によれば、実はこの課題を解決する「日本ならでは」の要素が身近なところにあるという。

―― 対話技術の専門家として、東中さんは今のAIスピーカーの対話機能をどのように見ていますか。

　「Google Home」（米Google社）、「Amazon Echo」（米Amazon.com社）などのAIスピーカー（スマートスピーカー）は、現状の自然対話技術でできる範囲内で割り切った設計がされていると感じています。これらが持つ対話機能はいわゆる一問一答形式で、「OK, Google」「Alexa」などの起動語に続く1つの質問や発話に対する1つの返答を返すという仕組みです。発話の度に起動語による呼び掛けが必要なので、人間がするような文脈に沿った長い対話のやり取りを前提にしているわけではありません。

　この仕組みは、スマートフォン（スマホ）の時代である種の「伝統」となった設計思想を受け継いでいます。1回の入力でシステムがうまく理解できなければ、もう一度入力し直せばいいという考え方です。つまり、現状のAIスピーカーはあくまで対話を目的とした製品ではなく、音楽再生や家電操作の指示を声でできる「便利なデバイス」という位置付けだと思います。

NTTドコモの音声エージェント「しゃべってコンシェル」のQ&A機能、「マツコロイド」の対話エンジンなどを手掛けてきたNTT メディアインテリジェンス研究所の東中竜一郎氏。

[画像のクリックで拡大表示]

　ただし、AIスピーカーには情報を表示する画面がないため、スマホと比較すると用途が限られてしまうという側面もあります。実際、各社のAIスピーカーを使ってみた結果、ディスプレーが付いている「Echo Show」（Amazon.com社）が個人的には一番便利だと感じました。こちらの発話に対して「ここまでは認識できました」と表示するので、総合的な知性を高められているわけです。ニュースや天気も映像付きで教えてくれます。

　一方で、LINEの「Clova WAVE」は他と少し違っています。一問一答ではなく、返答の後にリングが光って次の発話を待つ状態になってくれるからです。私を含めて対話技術の研究者はこれまで、できるだけ長く（文脈に沿った）自然な対話を続けられるような技術の研究開発を進めてきました。その意味では、Clovaは対話を長く続けようという努力が見られて良いと感じました。