日経エレクトロニクス2014年7月21日号のpp.86-93「音声対話システムの実際、Siriはどのように成功したか」を分割転載した後編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、米Apple社の「Siri」が成功を収めた理由に迫る。

技術の集大成としてのSiri

 ここまで説明してきた技術の発展形と言えるのが「Siri」である。Siri自体はSRI Internationalという米国の研究所が手掛けていた「CALO」プロジェクトからスピンオフした成果である。あらかじめ記述された知識体系を利用するSHRDLU型で、相手の発話内容を理解して答える“正統的”な対話システムと言える。

 ただし、多くのユーザーの印象はやや異なり、「ユーモアのある答えをする」「キャラが立っている」という意見を聞いたりする。Siriのもともとのコンセプトは、オントロジーで記述した知識に基づき、ユーザーの意図を汲んで適切に答えようというものである。それに加えて、ELIZA型のテンプレートに基づく応答生成も導入することで幅広く受け入れられた。上述のユーザーの印象は、主にELIZA型の応答によると見られる。音声認識にはNuance社のクラウド型の技術を用いているとされる。つまり、過去何十年かの対話制御や音声認識の技術の粋を集めたシステムといえるわけだ。

オントロジー=特定の領域に属する概念の間の関係を体系的に整理したもの。

 具体的には、Siriの「まじめなアーキテクチャ」はSRIが開発したACTIVEプラットフォームに基づいており、例えばスケジュールを管理する機能では、ミーティングの日付や、そこに誰が来てどこでやってといった情報を管理する内部構造を用いている。一方で、例えば「I love you」と話しかけると、いくつかのパターンで返答する。これはELIZA型の応答生成である(図5)。

図5 Siriの応答例

 Siriとよく比較されるのが、NTTドコモの「しゃべってコンシェル」である。ただしそのコンセプトは、Siriとはかなり違う。Siriはこれまでの研究の成果を踏まえて対話システムを作り、ちゃめっ気を加えた格好であるのに対し、しゃべってコンシェルは、モバイル環境で必要とされる機能をできるだけ合理的に実現する狙いで作られている。しゃべってコンシェルの開発者が、対話システムの研究者ではなかったことが影響しているとみられる。