「AIスピーカーの開発は、日本ではゲームのコンテンツクリエーターが活躍する場になる」。発言の主は、元NTTドコモの執行役員で、在籍時には音声エージェント「しゃべってコンシェル」の商用化にも携わった経験を持つ、大阪大学 先導的学際研究機構教授栄藤稔氏である。同氏は機械翻訳エンジンを開発するみらい翻訳の代表取締役社長を継続しながら、2017年8月にAIスピーカーなどに向けて対話型コンテンツを開発するコトバデザインを設立した。執行役社長を兼ねる同氏に聞いた。

――AIスピーカー(スマートスピーカー)という製品の台頭をどう見ていますか。

栄藤稔(えとう・みのる) パナソニック、国際電気通信基礎技術研究所(ATR)を経て、2000年にNTTドコモに入社し、モバイルマルチメディアを担当。2012年6月から執行役員。2017年6月にNTTドコモ執行役員を退任し、7月から大阪大学先導的学際研究機構教授に就任。機械翻訳エンジンを開発するみらい翻訳社長を継続しながら,8月には対話型コンテンツを開発するコトバデザインを設立し、執行役社長を兼ねる。パターン認識の研究で博士号を取得
栄藤稔(えとう・みのる) パナソニック、国際電気通信基礎技術研究所(ATR)を経て、2000年にNTTドコモに入社し、モバイルマルチメディアを担当。2012年6月から執行役員。2017年6月にNTTドコモ執行役員を退任し、7月から大阪大学先導的学際研究機構教授に就任。機械翻訳エンジンを開発するみらい翻訳社長を継続しながら,8月には対話型コンテンツを開発するコトバデザインを設立し、執行役社長を兼ねる。パターン認識の研究で博士号を取得
[画像のクリックで拡大表示]
栄藤 「対話型ユーザー・インターフェース(UI)」という新しいパラダイムの幕開けだと思います。

 歴史を振り返ると、これまでは約10年に1回のタイミングで、UIのパラダイムシフトが起きています。具体的には、キーボードでコマンドラインを入力する時代から1995年の「Windows 95」でGUI(グラフィカル・ユーザー・インターフェース)時代に移行し、2006年の「iPhone」の登場で、タッチパネルを使ったジェスチャー動作が普及。その後、約10年が経って音声操作の「Amazon Echo」(米Amazon.com社、2015年)が登場しました。

 もっとも、現状のAIスピーカーは、Amazon Echoも、米Google社の「Google Home」もアーキテクチャはまだ「コマンド(命令)実行型」のままです。AIスピーカーを実行させるためのコマンドがあらかじめ決められていて、ユーザーがそれを知らないと所望の結果を得られません。この基本的なアーキテクチャが、今後2~3年のうちに対話型UIに変わらないかと期待しています。対話型UIはいわば、機械と人間が“折り合いをつける”インターフェースと言えます。

――「折り合い」をつけるとはどういう意味でしょうか。

栄藤 機械の方から自分ができることを教えてくれたり、ユーザーの状態を推定できたりするものです。この“折り合いをつける”インターフェースの登場は、日本人の開発者にとってチャンスです。

――ところで、AIスピーカーが米国市場で一定の成功を得た要因をどう分析していますか。

栄藤 要因はいろいろありますが、音声UIで提供できる機能が増えたことが大きいと思います。たとえば音楽配信、ニュースの音声読み上げサービスなどです。さらに、音声認識の精度がここ数年で格段に高まったことも重要です。

 NTTドコモは私が在籍していた2006年に、ガラケー(フィーチャーフォン)向けに音声を使って操作する技術(DSL:分散型音声認識)を提供しました。携帯電話機で音声から特徴を抽出をしてバックエンドのサーバーに送り、音声認識の結果を携帯電話機に返す技術です。当時は世界初で、それが後にしゃべってコンシェルの開発につながりました。

 ところが当時はその技術を公開後、「音声認識はものにならない」と周囲に言われました。正直なところ、私も半分、そう思っていました。なぜなら、当時の認識率は93~94%でした。これだと100回使って10回近くは間違えることになります。これが今では誤りが2回程度などと大幅に減り、普及へのクリティカルポイントを超えました。

――ここ数年で音声認識が急速に進化したのはなぜですか。

栄藤 解析対象となるデータ量の増大もありますが、ディープラーニング(深層学習)が音声認識の精度向上に大きく貢献しました。私がディープラーニングに初めて接したのは2008年のことです。音声認識の分野でこの技術が出始めました。

 ディープラーニングで用いられる多層構造のニューラルネットワークであるDNN(ディープニューラルネットワーク)では、「特徴抽出」という入ってきた信号をどう表現するかと、表現されたものをどう分類するかという2つのステップがあります。それを同時に学習できるようになったインパクトが非常に大きく、これによってここ数年で“使える”レベルになりました。

 ただ、音声操作には言語依存があります。英語はコマンドにしやすい言語ですが、日本語はコマンドにしにくい傾向があります。また表現が直接的か、間接的かという違いもあります。日本語で命令すると、なんとなく“面倒くさい”感じになってしまいます。だから、文化の違いによって、UIの進化の仕方も変わってくると思います。例えば、米Microsoft社が開発したチャットボット、米国版の「Zo.ai」と日本版の「女子高生AIりんな」はまったく異なります。

 つまり、現状の命令実行型のAIスピーカーは、日本では広く受け入れられない可能性があると思います。だからこそ、日本ではゲームのコンテンツクリエーターに活躍の場があると考えています。