皆さん、グリム童話の「オオカミと七匹の子ヤギ」という物語を覚えているでしょうか。「そんな昔のことは忘れたよ」という方に簡単に内容を紹介すると、七匹の子ヤギのお母さんが用事で出かけている最中に、オオカミがやってきてお母さんになりすまそうとし、失敗を重ねながらも最終的に子ヤギに家のドアを開けさせる、という話です。

 そこで、子ヤギにとってお母さんかどうかを見分けるキーポイントになったのが、オオカミの手足の色と声でした。手足の色で人を見分けることは少なくとも日本ではあまりないと思いますが、声は、機械などを使わずに人が人を認証する上では、今でも顔の次に重要な手段になっているのではないでしょうか。

 もっとも、少し前の携帯電話では、話している相手が誰だかよく分からないことがありました。「知らない人」が電話に出てきたような気になって、いつもは使わない敬語で話してしまった経験がある人もいるかもしれません。

 従来の携帯電話で話し手を声で識別することが難しかったのは、雑音が多かったこともありますが、主には狭い通信帯域に音声を載せるために、低い標本化周波数やデータ圧縮率の高い符号化技術を用いていたからです。そのプロセスで、話し手の声の特徴を識別するための情報の多くを捨ててしまっていたのです。

 それが最近の携帯電話機やスマートフォンでは、電話の相手が誰だか分からないということが大幅に減りました。これは、通信帯域が広くなり、高い標本化周波数や圧縮率の低い符号化技術が使えるようになってきたことが理由の一つです。

 こうした変化と深い関係があるのが、1年ほど前からスマートフォンで増えてきた音声関連のサービスです。これらは、音声認識技術という「機械の耳」や音声合成技術という「機械の声」をネットワークを介する格好で利用しています。より正確にいえば、「クラウド型」という、音声のデータ処理などをサーバー側で実行するシステムを用いています。クラウド型音声サービスのアイデアは10年以上前からありましたが、実用的になってきたのはごく最近。かつての人間が聞いて識別できない声は、機械でも識別できないことがほとんどで、携帯電話のシステムに実装しても使い物にならない水準でした。人間が聞いて識別可能になってきたことで、ようやくネットワークを介した音声認識技術や音声合成技術を利用する前提が整ってきたわけです。

 ちなみに、「日経エレクトロニクス」2012年12月24日号の特集「人に近づく、音声インタフェース」では、音声認識技術や認識した言葉の意味を把握する技術、そして、声を合成する音声合成技術の最先端を紹介しています。

 特集の中で、ページ数の都合でその大きなインパクトを十分には伝えきれなかったのが、音声合成技術についてです。最近は、タレントそっくりの声や、自分自身の声を合成して出せるようにする技術やサービスも登場しています。これまではいくら機械の声でさまざまな声色を出せるようになっても、通信回線の帯域の狭さが、せっかくの技術を台無しにしていました。最近になって通信回線を介して声の識別が可能になったことで、さまざまな「声色」や「アクセント」を再現するサービスが一気に開花しつつあります。

声のライセンス・ビジネスが始まる

 ただ、それには良い点も悪い点も出てきます。