人間と情報機器をつなぐユーザーインターフェース(user interface:UI)は、機器の進化や表示するコンテンツの変化によって発展を遂げてきた。近年、スマートフォンやタブレット端末(以下ではこれらをスマートデバイスと総称)では、タッチパネルを標準UIとして用いることで、機器やコンテンツ操作の使い勝手が大きく向上した。一方、スマートデバイスの用途として、高い応答性が求められるウェブ検索やSNS(social networking service)、メッセージアプリの普及が進んでいることから、さらに利便性の高いUIを求める声が強まっている。こうした状況の下、次世代技術として開発が進められてきた非接触UIの市場が急速に立ち上がりつつある。

図1●次世代UIの分類
[画像のクリックで拡大表示]

 TSRではこれらの非接触UIを「次世代UI」と定義し、2014年から調査を行ってきた(図1図2)。本記事では、次世代UIの概要と今後の市場成長性について解説する。

図2●次世代UIの定義と入力方式
[画像のクリックで拡大表示]

 TSRでは図2に示した入力方式のうち、音声やモーショントラッキング(ジェスチャーや視線)による入力機能を備えた非接触UIを「次世代UI」と定義している。音声認識は、マイクを通じて人間の発声を受信し、発声内容を解析して、テキスト変換を行う技術である。ジェスチャー入力は、手や指、全身の動きを追跡し、入力用途として変換する技術を指す。モーションセンサーによって端末の傾きや動きを感知して機器やコンテンツを操作する接触UIや、指の動きを追跡しない近接センサーは、次世代UIからは除外している。

音声認識はAppleやGoogleが主導

 音声認識機能はそれ自体はとりたてて新しい技術ではない。認識精度の低さから、民生用途ではほとんど使われてこなかったのが実情である。「Windows 7」以降のOSを搭載したパソコンには音声認識機能が標準搭載されているが、日常的に利用しているユーザーはほとんどいないだろう。

 音声認識機能が一躍脚光を浴びるようになったきっかけは、2011年に米Apple社がiPhone 4Sに「Siri」を搭載したこと。Siriは自然言語処理(連続単語認識)と音声合成機能、クラウドサーバーによる解析・レスポンス機能を組み合わせたVirtual Assistant(VA)システムである。Apple社はiPadにSiriを搭載するにあたり、認識率向上のためにデュアルマイクを採用した。ソフトウエアだけでなくハードウエア側の対応を進めている点も見逃せない。

 米Google社も、検索アプリの音声検索対応を進めてきた。2012年の「Android 4.1」以降、VA機能に対応するなどApple社に追随する動きをみせている。

図3●音声認識システム市場の予測
[画像のクリックで拡大表示]

 Apple社やGoogle社が音声認識への対応を進めた結果、図3に示すように、端末ベースでの搭載台数は2013年時点で14億台を突破している。全体に占めるクラウドベースのVAシステムの比率は80%を超えており、スマートデバイス向けでは機器操作のニーズよりも検索機能などの強化の観点から音声認識機能の搭載が進んでいる。