音声認識システムは開発の歴史こそ長いが,実際に使われている場面はさほど多くない。理由の一つに,騒音や他人の声が割り込むと認識率が大きく低下することがあった。京都大学の奥乃氏の研究室は,さまざまな音が混在する音環境の中から,特定の人の声や音楽を分離・抽出することで認識率を安定させるシステムの研究を進めている。本稿では奥乃氏に,同氏がホンダの関連会社と共同研究で進め,ホンダのロボット「ASIMO」にも実験的に搭載された聴覚システム「HARK」について,開発の経緯やポイント,応用例を紹介してもらう。(野澤 哲生=本誌)

奥乃 博
京都大学大学院 情報学研究科 知能情報学専攻 教授

 我々はこれまで,「知能メディア」を聴覚センサで高機能化することに取り組んできた。知能メディアとは,音情報のことである。現在は,この知能メディアをロボットなどの知能システムに応用することを目指して研究している。その立場では,聴覚センサは要素技術の一つであり,このセンサを活用した音の聞き分け技術(音声認識システム)が特に重要になる。