日経エレクトロニクス2014年6月23日号のpp.68-74「音声認識・対話のアプリケーション、成功の鍵は必然性や自然性」を分割転載した後編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識のアプリケーション(用途)のうち、音声をコンテンツとして扱うものを紹介する。

話し言葉の書き起こし

 以上は音声を機械とのインターフェースに使う用途である。ここからは、音声をコンテンツとして扱う場合を取り上げる。まず考えられるのは、会議録を作ったり、字幕を付けたりといった、人がしゃべった言葉を書き起こすシステムである。

 前述したように、人間同士の話し言葉をテキスト化する技術は、音声ワープロなどとは全然違う。例えば、ディクテーションソフトを会議録用に使おうとしても、適切には動作しないと考えた方がいい。ディクテーションソフトのように機械に向かって話すときは、人の発話は知らず知らずのうちに丁寧になっている。一方で講演や会議では考えながら話すので、発話の区切りや発声が必ずしも明瞭ではない。

 一番の違いは認識結果のフィードバックがないことである。ディクテーションソフトの場合は、話した内容がそのまま文字になるので、ユーザーは「こういう話し方をすると認識がうまくいかないんだ」と、すぐにわかり自然に修正する。会議や講演の場合にはありえない効果だ。

 現状で実現しつつあるシステムは、公共の場で多数の聴衆に向かってできるだけ丁寧に話すような、パブリックスピーキングと呼ばれる状況を想定している。実際、発話を書き起こす需要が大きいのはパブリックスピーキングで、普通の会話ではあまりない。例えば、放送のニュースに字幕を付けたり、議会の会議録を作ったりするシステムに需要がある。なお、この用途の詳細は連載の次回以降で解説する。