本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識システムの新潮流としてディープ・ニューラルネット(DNN)を紹介する。
莫大な発話データを集めるのは非常に困難である。100時間程度までであれば、研究開発費を投じて何とか収集できた。1時間のデータの収集・書き起こしに要するコストはおおむね数万~十万円ほどで、数百時間では1000万円規模になり、それ以上データを増やそうとすればコストの点で現実的ではなくなる。ビッグデータと呼ばれる規模のデータを集めるには、この単純な枠組みでは難しい。
もう一つの問題は、人為的に被験者を集めて収集したデータが、実際のユーザーの発話する音声と必ずしも合致しないという点である。話者の年齢や地域のバランスを取って読み上げ音声を収録する目的であればこの方法でいいが、話し言葉を対象にする場合には必ずしも適さない。
自然に大規模データを集める
このため、現実の発話データを自然かつ大規模に集積できる枠組みが必要になる。実際、Google社や米Nuance Communications社などは既にそのような仕組みを持っている。音声検索などのアプリケーションを無償で提供して世界中の人々に利用してもらい、そのデータをクラウド上のサーバーに蓄積するといった方法である。
スマートフォンなど携帯端末向けの音声認識システムでは端末の処理能力が低いため、そのままでは大規模なモデルや処理の重い認識エンジンは使えない。上記の方法では、音声データをサーバーに送り、サーバーで認識処理を実行することで、この問題を解決している(図6)。これを可能にしたのは携帯電話網の広帯域化・高速化で、音声をほぼ圧縮せずにパケット送信できるようになったことが大きく寄与した。
携帯端末によるデータ収集の大きな利点は、リアルなユーザーの音声データを、大規模に集積できることである。日本でもNTTドコモの音声対話サービス「しゃべってコンシェル」は、対応アプリのダウンロード数が数百万規模であり、数億もの発話が集積されているとみられる。