音声をUIに使うアプリと音声をコンテンツとして扱うアプリ

音声認識・対話のアプリケーション、成功の鍵は必然性や自然性（前編）

京都大学学術情報メディアセンター教授

2017.11.07

日経エレクトロニクス2014年6月23日号のpp.68-74「音声認識・対話のアプリケーション、成功の鍵は必然性や自然性」を分割転載した前編です。

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識のアプリケーション（用途）に焦点を絞る。

　音声認識には、さまざまなアプリケーション（用途）がある。図1は、連載第1回で示した図と同じものである。この図から読み取ってほしいのは、音声認識の用途は、扱う語彙の規模で小語彙と大語彙のものに分けられることだ。周囲の雑音をあらかじめ想定しにくい実環境で使う家電機器の操作やロボットとの対話などは、一般に利用できる語彙が少ない。これに対して、マイクに近いところでユーザーが発話し、しかも相手が機械であることを意識しやすい携帯端末では、数万、数十万といった語彙を対象にできる。講演や会議の書き起こしなどの用途は、地名や人名などの固有名詞をすべてカバーする必要がないので、おおむね数万で十分である。

図1　用途ごとに変わる語彙や発話スタイル

音声認識の用途ごとに、対応できる語彙と発話スタイルを示した。図中の年は実用化された時期を表す。

[画像のクリックで拡大表示]

　音声認識システムの仕様としては、今では数万以上という大語彙の処理もそれほど問題ない。特に、クラウドで音声を処理するスマートフォン（スマホ）のアプリなどでは数十万のシステムが当たり前になってきた。人間が普段使う語彙は数万程度といわれており、多くの用途に十分対応できる水準だ。

　細かい話だが、語彙が数万か数十万かは、単語辞書の作り方によって違う。例えば「京都大学」を1つの単語として扱うと、他の大学も網羅するには、辞書には大学の数だけ単語を追加する必要がある。一方で「京都」と「大学」を別の単語で扱えば、辞書に格納すべき単語の数は大幅に減る。従って、語彙を5万としているソフトウエアは、50万のソフトウエアと比べて必ずしも性能が低いわけではない。

　音声認識の主要なアプリケーションは、大きく分けて2つある（図2）。1つは、音声をユーザーインターフェースとして使うもの。ヒューマン・マシン・インターフェースやヒューマン・コンピューター・インタラクションなどと呼ばれ、各種の装置を発話により操作・制御する用途である。おそらく多くの人は、音声認識をそういうものと捉えていると思う。

図2　音声認識の用途は大きく二つ

音声認識の用途（アプリケーション）は、インターフェースとコンテンツの二つに大別できる。

　しかし、音声をインターフェースではなくコンテンツとして考えることもできる。人と機械との対話ではなく、人間同士の会話の音声を書き起こしたり、検索したりといった用途である。つまり、音声認識の用途はインターフェースとコンテンツの2つに大別できるわけだ。以下では、それぞれの分類に入る個別のアプリケーションについて、実用化の状況を説明する。