最近になって実用化が急速に進んでいる音声認識技術。本連載では、その基礎から課題、最新動向を、実装・開発例を交えて解説していく。第1回は、音声認識システムを構成する技術の概要と、主要な用途を紹介する。(本誌)

 音声認識の研究は古く、筆者自身も研究を始めて間もなく25年がたつ。もっとも、その応用が急激に広がり出したのは最近である。2010年ごろから音声による検索やコンシェルジュサービスが携帯機器に搭載されるようになってきた。例えばNTTドコモの「しゃべってコンシェル」やiPhone向けの「Siri」などがある。マスメディアに取り上げられるなど社会の関心も高まっており、今後も発展が期待される分野である。

複雑なシステムだが単純な原理

 音声認識は、非常に複雑なシステムだ。音声の周波数分析、つまり人間の耳が捉える音の特徴の解析から、パターン認識や言語処理、人工知能的な知識表現や解の探索といった処理も必要になる。

 同じ認識技術でも画像認識は基本的にはほとんど信号処理によるパターン認識である。そもそも画像は記号化されない場合が多く、文法などの記号レベルの処理はほとんど含まれない。これに対して音声には信号レベルと記号レベルの両方の処理があり、そこが非常に難しく、かつ面白いところである。

 それにもかかわらず、現在の音声認識システムは非常に単純な原理で動いている。簡単に言えば確率的なモデルを統計的に学習する技術が基本で、大規模なコーパスを用意することが鍵になる。

コーパス=自然言語のテキストや音声を大量に収集して、研究開発に利用しやすく整備したデータ。

ニュースは聞けてもドラマは苦手

 コンピューターにとってあらゆる言葉は「外国語」である。その認識・対話能力は、我々が外国語をどのくらい聞き取れるか、外国語でどの程度コミュニケーションできるのかと似ている。例えば、日本人でも米CNNなどで流れるニュースを聞き取れる人はある程度いるが、外国映画のセリフを全部聞き取れる人は少なく、テレビドラマではさらに減るだろう。

 現在の音声認識も同様で、ニュースならかなり認識できるが、映画やドラマのような自然な会話はまだ難しいレベルにある。

 また、音声認識システムは万能ではない。かなり高価なソフトウエアでも多様な用途に使えることはなく、例えば使用目的がスマートフォンかカーナビかでシステムのほとんどすべてが異なる。このため音声認識システムは、カスタマイズのコストなども考慮して設計する必要がある。

 一方で、対象にする話者は通常は特定できず、多くの人の声を集めてシステムを作ることになる。携帯電話機やパソコンでは使用者はある程度決まるが、声を登録してもらうのは現実的ではないからだ。もちろん使用者が限られている場合に、その声にだんだん適応していく仕組みはある。ただし、例えばコールセンターのように適用が難しい状況もある。