会話ロボットに用いられる音声認識・対話機能は、数年前の水準とは別物といえるほど大きく向上した。飛躍的な向上を実現したのが、4~8個という多数のマイクを利用したビームフォーミングと雑音抑制技術の向上、そしてディープラーニング(深層学習)に基づく人工知能の進展である。雑音が大きい悪条件下でも、人間を超える音声認識率を達成する例も出てきた。
最近3年ほどの音声認識・対話の機能向上のスピードは、かつての研究者が目を疑うほど速い。以前は不可能とされたことが次々と実現できるようになっているのだ。山積していた課題の多くが解決、または解決のメドが見え始め、人間並みの音声認識率を得られる時代が見えてきている(図1)。
音声認識率の向上を牽引したのは大きく2つの技術だ。4~8個という多数のマイクを利用した雑音抑圧技術と、人工知能の技術であるディープラーニングである。これらが、現在の会話ロボットや会話ボット急増の大きな原動力の1つになっている。