「マルチモーダル」。AIスピーカー(スマートスピーカー)の識者に次のトレンドを尋ねると、多くの場合、この言葉が返ってくる。マルチモーダルとは、視覚や聴覚など複数の手段を使ったインタラクションによりコミュニケーションを図ることを意味する。それを先取りした製品がある。ソニーモバイルコミュニケーションズが2017年11月18日に発売したコミュニケーションロボット「Xperia Hello!(G1209)」だ(関連記事「"あなた"に話しかけるロボット、ソニーモバイルが発売」、同「「AIスピーカーと差異化」 ソニー、技術内製化で実現」)。
同社自身はこの製品を他社のAIスピーカーとは異なり、「家族間のコミュニケーションを促す製品」と位置付けるが、共通要素は多い。次世代AIスピーカーを先取りするかのように、カメラやタッチパネルディスプレーを備えてマルチモーダル化し、さらにロボットならではの動きを加えて能動的なコミュニケーションを図る。
Xperia Hello! の市場想定価格は15万円前後。価格的にも挑戦的な製品で、ソニーモバイルコミュニケーションズはどのような知見を得たのか。開発陣である同社 Smart Products Smart Product Development システム1課 Project Managerの繁田悠氏、ソフトウエア部門 SW開発5部 エージェント技術開発課 シニアソフトウェアエンジニア 石原厚志氏、スマートプロダクト部門 商品企画課 城井学氏に聞いた。
――Xperia Hello!はAIスピーカーのトレンドを先取りするような機能を搭載していますね。
結果的にAIスピーカーに似ているのですが、我々としてはそれを意識した製品ではありません。Xperia Hello!は2016年の「Mobile World Congress」(いわゆるMWC、スペイン)でコンセプトモデルとして発表した製品の1つです。
Xperia Hello!の製品コンセプトは「人と人とを結ぶ」こと。テレビ電話の「Skype」やテキストチャットの「LINE」で外にいる人とつなぐだけではありません。家族の誕生日などイベントを通知してコミュニケーションを促すなど、人をつなぐための行動を能動的に行います。そのための機能を模索した結果、音声認識だけでなく、タッチパネル式のディスプレーやカメラも搭載することになったのです。
もちろん、Xperia Hello!における音声認識の役割は大きい。例えば、ファーストアクションは声です。開始語「Hi! Xperia」が聞こえると「何でしょう?」と答えます。音声認識を使った操作は、スマートフォン(スマホ)のツールよりも”人に近い存在”と言えます。LINEやSkypeを使う場合でも、音声認識を使えば、スマホでの操作に比べてステップ数が少なく、すぐにコミュニケーションを取ることができます。
特に今回ターゲットとして意識したのは、高齢者や幼児などスマホを使わない人とのコミュニケーションです。例えば、スマホを持っていない高齢者でもLINEは有名ですから存在は知っていて、実は使いたいと思っている。だから、話すだけでLINEができるならやりたい、というニーズがある。スマホを操作するのは難しくても、「お母さんにLINE」と言えばLINEメッセージが送信できるわけです。