音声認識、Siriへの道

データは多ければ多いほどよい、ビッグデータで音声認識率向上

音声認識に新潮流、ビッグデータやDNNを活用（前編）

京都大学学術情報メディアセンター教授

2017.11.02

日経エレクトロニクス2014年6月9日号のpp.82-87「音声認識に新潮流、ビッグデータやDNNを活用」を分割転載した前編です。

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識システムの新潮流としてビッグデータの活用を紹介する。

　今回は、音声認識研究のこれまでの進歩と最新動向を概観する。まず最初に、前回説明した音声認識の基礎を改めて定式化しておきたい。

言語モデルと音響モデルを最尤推定

　人が話す音声とは、その人が頭に浮かべた内容を音波として外に出したものと言える。音声認識は、話し手との間の通信路において音声信号Xを観測して、話された単語列Wを推定することである。

　これを数式で表現すると、次のようになる。

p(W│X)≈p(W) p(X│W)

　ここでp(W)は、その言語もしくは特定の用途で、ある単語列Wが生成される確率（先験確率）である。これを計算するモデルを「言語モデル」と呼ぶ。もう一方のp(X│W)は、単語列W、正確にはWを構成する音素Sから音声Xが生成される確率である。これを計算するモデルを「音響モデル」と呼ぶ。

　音声認識では、言語モデルと音響モデルを用途に応じてあらかじめ推定しておく。言語モデルは、単語列Wの先験確率を、現実の会話におけるWの出現頻度に基づいて推定する。通常は、前後の単語のつながりを統計的に扱うN-単語連鎖モデル（N-gram）で考える。例えば「京都」という言葉が100回現れたうちの20回が「京都大学」という言葉だったとすると、「京都」の次に「大学」が来る確率は20/100とみなせる。w₁（「京都」）が生じた時にw₂（「大学」）が生じる確率p(w₂│w₁)は、下記の数式で表現できる。

あなたにお薦め

今日のピックアップ

注目記事

おすすめのセミナー

セミナー一覧

注目のイベント

おすすめの書籍

日経BOOKプラスの新着記事

日経クロステック Special

エレキ

毎月更新。電子エンジニア必見の情報サイト

製造