「(ディープラーニングによって)音声認識の精度が99%に達すれば、音声インターフェースに変革をもたらす“ゲームチェンジャー”になる」―――。

 2015年3月17日から米国で開催中のGPU関連の開発者会議「GTC 2015」の基調講演に登壇したAndrew Ng氏は、ディープラーニング(深層学習)の可能性について言及した(図1)。同氏はディープラーニング分野の著名な研究者で、中国の大手IT企業Baidu社のChief Scientistでもある。Ng氏は、ディープラーニングによって飛躍的に精度が向上したBaidu社の音声認識技術や画像認識技術をアピールした。

図1 Andrew Ng氏

 ディープラーニングを利用することから、Baidu社は同社の音声認識技術を「Deep Speech」と呼ぶ。同技術では、音声のような時系列的に並んだデータの解析に向く「RNN(recurrent neural network:再帰的ニューラルネットワーク)」をベースにした、「BD(Bi-directional)RNN」を適用したことで、認識精度を高めたという(図2)。

図2 「BDRNN」を利用