会話ロボットに用いられる音声認識・対話機能は、数年前の水準とは別物といえるほど大きく向上した。飛躍的な向上を実現したのが、4~8個という多数のマイクを利用したビームフォーミングと雑音抑制技術の向上、そしてディープラーニング(深層学習)に基づく人工知能の進展である。雑音が大きい悪条件下でも、人間を超える音声認識率を達成する例も出てきた。

 最近3年ほどの音声認識・対話の機能向上のスピードは、かつての研究者が目を疑うほど速い。以前は不可能とされたことが次々と実現できるようになっているのだ。山積していた課題の多くが解決、または解決のメドが見え始め、人間並みの音声認識率を得られる時代が見えてきている(図1)。

図1 音声認識や対話技術が急速に“人間並み”に
図1 音声認識や対話技術が急速に“人間並み”に
音声認識や対話技術に関する従来の課題と、その改善状況を示した。Amazon.com社のAmazon Echoが、音声認識の使い勝手を左右する課題を大幅に改善。音声認識の基本性能も、この3年ほどでディープラーニングに基づく技術革新で大幅に向上した。そして、対話をより人間らしくする取り組みも急進展し始めた。
[画像のクリックで拡大表示]

 音声認識率の向上を牽引したのは大きく2つの技術だ。4~8個という多数のマイクを利用した雑音抑圧技術と、人工知能の技術であるディープラーニングである。これらが、現在の会話ロボットや会話ボット急増の大きな原動力の1つになっている。