東芝は、1つのテーブルを囲んだ複数の人が同時に話しても、話者を特定して話者ごとに集音できる音声処理技術を開発した(ニュースリリース)。事前に話者の特徴を学習する必要がないことと、タブレット端末とそれに取り付けたマイクロホンアレーという小型のシステムで処理できることが特徴である。

 マイクロホンアレーから半径1m以内に話者が複数いるシーンを想定して開発した。例えば、こぶりのテーブルを囲んだ4~6人程度までの会議や、店舗での対面販売などである(図1)。このようなシーンで複数の人が同時に話した場合を含めて、話者ごとに集音することを目的にする。集音後に音声認識を実行すれば、話者ごとに分離した発言記録が作れ、会議の議事録の作成負荷が低減したり、対面販売の応対方法の改善などに寄与するという。

図1●今回の技術が狙うシーンの例 東芝のスライド。
図1●今回の技術が狙うシーンの例 東芝のスライド。
[画像のクリックで拡大表示]

 東芝によれば、これまでにも、話者を分離して集音する技術はあった。ただし、話者ごとに専用のマイクを使ったり、事前に話者全員のテスト発言を学習(録音・解析)して分離のためのフィルターを作成したりする手間がかかった。

 それに対して、今回の技術を使えば、話者達の中央付近にマイクロホンアレーを置き、タブレット端末の演算能力(米Intel社のMPU「Atom」相当)があれば、事前の学習なしに、リアルタイムで話者を分離して集音が可能である。なお記者が取材した際には、試作品のマイクロホンアレーを使っていた。6人分のMEMSマイクロホンを1.6cm間隔で取り付けた小型のマイクロホンアレーで、タブレット端末の縁に取り付けられる(図2)。

図2●タブレット端末での実行例(左)とマイクロホンアレーの拡大写真(右) 東芝の写真。
図2●タブレット端末での実行例(左)とマイクロホンアレーの拡大写真(右) 東芝の写真。
[画像のクリックで拡大表示]