話し言葉をテキストにする、放送ニュースや国会審議が先駆け

話し言葉をテキスト化するシステム、会議録の作成や字幕付与への展開（前編）

京都大学学術情報メディアセンター教授

2017.11.09

日経エレクトロニクス2014年7月7日号のpp.92-97「話し言葉をテキスト化するシステム、会議録の作成や字幕付与への展開」を分割転載した前編です。

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声をコンテンツとして扱う用途として、話し言葉を書き起こすシステムを取り上げる。

　今回は、話し言葉をコンテンツとして扱うシステムの最新動向を取り上げる。ここでの話し言葉とは、基本的に人間が人間に向かって話す状況を指している。音声認識の応用例では、機器やサービスとの間のユーザーインターフェースとして使う例が多く、完成度もかなり高まっている。一方で人間同士の話し言葉の音声をコンテンツとして扱うシステムは、根本的な難しさがあり、研究開発の課題も多い。

　人間は、コンピューターやスマートフォン、ロボットなどに向かって話すときは、特定のアプリケーションの利用が前提であり、それに応じて発話内容を事前に考え、文法的に単純な文を音響的にも明瞭に発声する（図1）。特に検索の場合は単語を一言、二言発話するくらいである。これに対して人間同士が話をしているときは、各自が考えながら発話し、口語的な表現も多く用いられ、発声も明瞭とは限らない。そもそも文や発話の区切り自体が明瞭ではない。これらの点は、音声認識をする上で非常に大きな障害になる。

図1　機械とのインターフェースと人間同士の対話の違い

[画像のクリックで拡大表示]

　人間同士の話し言葉を扱うシステムを図2に分類した。横軸は話者の数で、1人が話しているのか、多くの人が話しているのかを示す。中央は2人程度で電話などが典型例である。縦軸は発話スタイルで、話し方が丁寧かくだけているかを表す。例えば放送ニュースは、アナウンサー1～2名が丁寧に話している状況である。講義や講演などは1人ができるだけ丁寧に話しているが、要求される丁寧さは放送ほど高くない。議会などは多数の人が、やはりできる限り丁寧に話している状況だ。基本的に公共の場で、話し慣れた人が丁寧に話している状況を「パブリックスピーキング」と呼ぶ。話し言葉を扱うシステムで実用化が先行しているのは、パブリックスピーキングを対象としたものである。