米Amazon.com社、米Google社、そしてLINEなど大手IT企業がBtoC(消費者向け)のAIスピーカーを続々と投入する一方で、全く異なるアプローチを試みるベンチャー企業がある。日本企業としてはいち早く、独自のAIスピーカー(同社では「スマートスピーカー」と定義)のハードウエアを開発し、2017年9月に販売開始したフェアリーデバイセズだ。同社は音声認識・音声対話など、音に関する機械学習のソフトウエアの開発・ライセンス事業を手掛けており、既に携帯電話機やカーナビなどで実用化の実績を積み重ねている。

 同社代表取締役 CEOの藤野真人氏は、東京大学在学中に創薬ベンチャーの起業に参画、その後大学院を中退してフェアリーデバイセズを設立したという異色の経歴を持つ。ソフトウエア開発の同社はなぜ、AIスピーカーのハードウエアを手掛けるに至ったのか、そして研究と実用化フェースが緊密に結びつく音声認識分野で今何が起こっているのか、藤野氏に聞いた。

――音声認識・音声対話のソフトウエアを手掛けてきた御社がなぜ、AIスピーカーを自身で開発しようと考えたのでしょうか。

 弊社はこれまで、音分野における機械学習のソフトウエア開発・ライセンス事業を手掛け、音声対話システムのための技術プラットフォーム「mimi」などの製品を、シャープの携帯電話機や他の会社のカーナビなど、累計約180万台に出荷してきました。「mimi」は人間の耳、つまり「聴覚をコンピューターで再現する」ことを目指しています。

フェアリーデバイセズ 代表取締役 CEOの<br>藤野真人氏
フェアリーデバイセズ 代表取締役 CEOの
藤野真人氏

 音を文字に変える機能、つまり音声認識は人間の耳の機能としてはごく一部で、それ以外にも多くの機能があります。例えば、犬の鳴き声や救急車のサイレンなどを聞き分ける「環境認識」、誰が話しているのかを聞き分ける「話者識別」、音の方向を識別したり特定方向の音だけ注目したりする「フロントエンド機能」など。弊社では機能ごとにモジュールとして実現しています。

 機械学習による音声認識技術を開発する中で痛感したのが「ゴミのようなデータを入れれば、出てくる結果もゴミになる」ということです。特にマイクのノイズによる影響が大きい。「ゴミのようなデータ」によって生じる問題は2つあります。

 1つはマイクからの音にノイズが入ってしまうと、単純に認識精度が落ちること。もう1つは、提供しているサービスの使用履歴からデータを集めてどんどん学習させて性能を向上させるときに、あるハードウエアからのデータに大きなノイズが入ってくると、その学習結果はほかのハードウエアに全く適用できないものになってしまう。ノイズがある音源は単純に認識性能が落ちるだけでなく、性能向上の役に立たなくなってしまうのです。

 私は関係する各社のハードウエアに触れる中で、製品開発においてコストや他の機能を優先するために、音声認識にとって理想的なハードウエアが作られることは少ないことに気付きました。そこで、“キレイな音"を録るための最適なデバイスを作ることにしたんです。