出典:日経エレクトロニクス,2009年5月4日,pp.16-17(記事は執筆時の情報に基づいており,現在では異なる場合があります)

 OKIは,組み込み機器向けの「小型音源分離モジュール」を開発した。雑音や複数の人の声が混じった音声から特定の人間の声を雑音を抑えながら取り出す機能を実現する。

 特徴は,演算量を従来の一般的手法の約1/10に減らして小型化と処理遅延の低減を実現したこと,一般の安価な小型マイクを利用できることなどである。同社は,IP(intellectual property)の形で携帯電話機のミドルウエアや電話会議,テレビ会議システムなどへの実装を目指すという。

 同モジュールはOKIが,早稲田大学 理工学部 理工学術院/情報理工学科 教授の小林哲則氏との共同研究で開発した。音声認識技術の高度化を図る経済産業省のプロジェクトの一環である。

 音声認識技術は,人の声などを電子機器やロボットなどに認識させる技術である。音源分離技術はその中で,特定の方向から来る目的音を周囲の雑音などから分離する技術である。ロボット相手の音声認識技術の一部を構成する技術であると同時に,人間にとっても,ある状況下では重要になる。例えば,携帯電話での通話時や電話会議やテレビ会議で人間同士が会話する場合である(図1)。

図1 電話会議の分かりにくさを改善へ
図1 電話会議の分かりにくさを改善へ
これまで電話会議などでは,話し手の位置情報が伝わらないため,話者の特定が難しかった(a)。従来のステレオ録音・再生技術は,聞き手が特定の1カ所にいる場合以外は使いにくい(b)。従来の音源分離技術には,処理遅延が大きい課題があった。今回はこの課題を大きく改善した。

 人間は,騒音の中で複数の人間が同時に話していても内容を聞き分ける「カクテル・パーティー効果」と呼ぶ能力を備えているといわれる。ところがこの能力は,電話会議などではうまく働かない。同効果の中で重要な役割を果たしている音源分離が,電話などを通すと充分に機能しなくなるためだ。