AIスピーカーにカメラ付いたら？ソニモバ“先取り”で得た知見

宇野麻由子

2018.01.09

　「マルチモーダル」。AIスピーカー（スマートスピーカー）の識者に次のトレンドを尋ねると、多くの場合、この言葉が返ってくる。マルチモーダルとは、視覚や聴覚など複数の手段を使ったインタラクションによりコミュニケーションを図ることを意味する。それを先取りした製品がある。ソニーモバイルコミュニケーションズが2017年11月18日に発売したコミュニケーションロボット「Xperia Hello!（G1209）」だ（関連記事「"あなた"に話しかけるロボット、ソニーモバイルが発売」、同「「AIスピーカーと差異化」　ソニー、技術内製化で実現」）。

　同社自身はこの製品を他社のAIスピーカーとは異なり、「家族間のコミュニケーションを促す製品」と位置付けるが、共通要素は多い。次世代AIスピーカーを先取りするかのように、カメラやタッチパネルディスプレーを備えてマルチモーダル化し、さらにロボットならではの動きを加えて能動的なコミュニケーションを図る。

　Xperia Hello! の市場想定価格は15万円前後。価格的にも挑戦的な製品で、ソニーモバイルコミュニケーションズはどのような知見を得たのか。開発陣である同社 Smart Products Smart Product Development システム1課 Project Managerの繁田悠氏、ソフトウエア部門 SW開発5部エージェント技術開発課シニアソフトウェアエンジニア石原厚志氏、スマートプロダクト部門商品企画課城井学氏に聞いた。

左から同社 Smart Products Smart Product Development システム1課 Project Managerの繁田悠氏、ソフトウエア部門 SW開発5部エージェント技術開発課シニアソフトウェアエンジニア石原厚志氏、スマートプロダクト部門商品企画課城井学氏。

[画像のクリックで拡大表示]

――Xperia Hello!はAIスピーカーのトレンドを先取りするような機能を搭載していますね。

　結果的にAIスピーカーに似ているのですが、我々としてはそれを意識した製品ではありません。Xperia Hello!は2016年の「Mobile World Congress」（いわゆるMWC、スペイン）でコンセプトモデルとして発表した製品の1つです。

　Xperia Hello!の製品コンセプトは「人と人とを結ぶ」こと。テレビ電話の「Skype」やテキストチャットの「LINE」で外にいる人とつなぐだけではありません。家族の誕生日などイベントを通知してコミュニケーションを促すなど、人をつなぐための行動を能動的に行います。そのための機能を模索した結果、音声認識だけでなく、タッチパネル式のディスプレーやカメラも搭載することになったのです。

Xperia Hello!は頭部にカメラとLEDの目、胴体部分にタッチパネル式ディスプレー、下の台座部分にマイクと人感センサーを備える。

[画像のクリックで拡大表示]

　もちろん、Xperia Hello!における音声認識の役割は大きい。例えば、ファーストアクションは声です。開始語「Hi! Xperia」が聞こえると「何でしょう？」と答えます。音声認識を使った操作は、スマートフォン（スマホ）のツールよりも”人に近い存在”と言えます。LINEやSkypeを使う場合でも、音声認識を使えば、スマホでの操作に比べてステップ数が少なく、すぐにコミュニケーションを取ることができます。

　特に今回ターゲットとして意識したのは、高齢者や幼児などスマホを使わない人とのコミュニケーションです。例えば、スマホを持っていない高齢者でもLINEは有名ですから存在は知っていて、実は使いたいと思っている。だから、話すだけでLINEができるならやりたい、というニーズがある。スマホを操作するのは難しくても、「お母さんにLINE」と言えばLINEメッセージが送信できるわけです。