講演・講義の字幕付け、音声認識で筆記の負担を軽減する

話し言葉をテキスト化するシステム、会議録の作成や字幕付与への展開（後編）

京都大学学術情報メディアセンター教授

2017.11.10

日経エレクトロニクス2014年7月7日号のpp.92-97「話し言葉をテキスト化するシステム、会議録の作成や字幕付与への展開」を分割転載した後編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、講演・講義への音声認識の適用を取り上げる。

講演・講義への音声認識の適用

　講演や講義に字幕を付けるシステムは、大きく分けると、映像のアーカイブにオフラインで付与する場合と、リアルタイムで処理する場合がある（図6）。議会の場合は基本的にはオフラインの処理であるのに対し、講義や放送などの場合はオフラインとリアルタイムの両方がある。

図6　講演・講義への字幕付与の形態と目的

[画像のクリックで拡大表示]

　リアルタイムの対応が必要なのは、例えば聴覚障害のある学生に情報保障を行う場合である。学生の理解の支援が目的であり、必ずしも完璧でなくても役に立つ。一方で映像アーカイブに字幕を付ける場合は、不特定多数の人に半永久的に見られる可能性がある。放送ほどの要求水準ではないが、万全を期すことが求められる。なお、字幕として表示しないが、検索用にキーワードを付与する場合もある。こうした用途ではそれほど高い認識率は要求されない。

　講演・講義用のシステムでも、専用の音響モデルや言語モデルを作成する必要がある。特に大学の講義や学会講演などでは、言語的にも音声的にも特徴的な話し方となり、対応が不可欠になる。その基盤となるのが、講演音声などを集めたCSJなどのコーパスだ。これを用いた音声認識システムの単語認識精度は、80％程度に達するが、あらゆる講演や講義でここまで実現できるわけではない。

　講演・講義の発話では、「えー」「まあ」などが多いのは議会と同じだが、対話ではないため「～ですが」「～についてお願いします」といった言い回しはあまりない。中でも大学の講義の場合には、専門用語が多い上に講師に依存する要素が大きい。同じ講師が長期間にわたって同じ内容の講義をすることが多いため、講師ごとにデータを収録し、講師ごとの単語辞書とモデルを作ることも考えられる。