音声認識モデルの主役が交代へ、HMMからDNNへ

音声認識に新潮流、ビッグデータやDNNを活用（後編）

京都大学学術情報メディアセンター教授

2017.11.06

日経エレクトロニクス2014年6月9日号のpp.82-87「音声認識に新潮流、ビッグデータやDNNを活用」を分割転載した後編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識システムの新潮流としてディープ・ニューラルネット（DNN）を紹介する。

　莫大な発話データを集めるのは非常に困難である。100時間程度までであれば、研究開発費を投じて何とか収集できた。1時間のデータの収集・書き起こしに要するコストはおおむね数万～十万円ほどで、数百時間では1000万円規模になり、それ以上データを増やそうとすればコストの点で現実的ではなくなる。ビッグデータと呼ばれる規模のデータを集めるには、この単純な枠組みでは難しい。

　もう一つの問題は、人為的に被験者を集めて収集したデータが、実際のユーザーの発話する音声と必ずしも合致しないという点である。話者の年齢や地域のバランスを取って読み上げ音声を収録する目的であればこの方法でいいが、話し言葉を対象にする場合には必ずしも適さない。

自然に大規模データを集める

　このため、現実の発話データを自然かつ大規模に集積できる枠組みが必要になる。実際、Google社や米Nuance Communications社などは既にそのような仕組みを持っている。音声検索などのアプリケーションを無償で提供して世界中の人々に利用してもらい、そのデータをクラウド上のサーバーに蓄積するといった方法である。

　スマートフォンなど携帯端末向けの音声認識システムでは端末の処理能力が低いため、そのままでは大規模なモデルや処理の重い認識エンジンは使えない。上記の方法では、音声データをサーバーに送り、サーバーで認識処理を実行することで、この問題を解決している（図6）。これを可能にしたのは携帯電話網の広帯域化・高速化で、音声をほぼ圧縮せずにパケット送信できるようになったことが大きく寄与した。