Tech-On! SPECIAL

見えにくい事柄を”見える化”して、高度な社会と豊かな生活を作る

1.自然な歌声合成技術「VocaListener」を 女性型ロボット「HRP-4C」に導入
VocaListenerでHRP-4Cがより人間らしく歌唱

TOPページへ

 18世紀から19世紀にかけての産業革命以来,私たちは「人間ではできない仕事」を機械で可能にする技術を追求してきた。膨大な計算を一瞬で終わらせるコンピュータ,時速300km以上で走る自動車,空を飛ぶ飛行機,細菌よりも小さなものを作る製造装置,遠く離れた人と会話をするための電話機。こうした技術の進歩によって,人々の暮らしは飛躍的に豊かになり,社会活動は質と量ともに大きく膨らんだ。

 一方で,「人間にしかできない仕事」は人間の役割として残されていた。音楽の演奏やダンスといった芸術的な表現や,娯楽作品や斬新な技術を生み出すような創造的な活動,接する人に安心感や好意を与える仕事などである。これまで,こうした仕事を機械で行なうための技術開発は,技術的な難しさが高く、その潜在的な需要が見過ごされていたために,進んでいなかった。しかし,技術の進歩と、デジタルネイティブ世代と呼ばれる人々が増える時代背景の中で、「人間にしかできなかった仕事」を人間が計算機の力を借りて共同で進めたり、それによって人間の遂行能力・表現能力を高めたり、新しいデジタルエンタテインメント文化を生み出したり、といったことが可能になってきた。もはや、「人間ではできない仕事」や「人間にしかできない仕事」という区別すら不要な、人間と機械が共に支え合う未来社会が到来しつつあると言える。

図1 人間に近い外観・形態で、人間に極めて近い歩行や動作ができるヒューマノイド・ロボット「HRP-4C」
図1 人間に近い外観・形態で、人間に極めて近い歩行や動作ができるヒューマノイド・ロボット「HRP-4C」

 産総研は,人間に近い外観・形態で、人間に極めて近い歩行や動作ができるヒューマノイド・ロボット「HRP-4C」を開発し,従来は人間にしかできなかったような、より多くの仕事を機械が担えるようにするための技術を磨いている(図1)。単に,歩き方や動作が人間に似ているだけではなく,音声認識や音声合成を用いた会話,表情や仕草の変化などによって,人間と自然に接することができる機械の姿と実現技術も追求している。

 「CEATEC JAPAN 2009」において,ヤマハは産総研と共同で,バーチャルシンガー「初音ミク」に採用されているヤマハの音声合成システム「VOCALOID」を使って,HRP-4Cがピアノの自動演奏に合わせて表情を変えながら歌うデモを披露した。そして今回,産総研が開発した最新の歌声合成技術「VocaListener(略称「ぼかりす」)」を応用することによって,HRP-4Cがあたかも歌手が歌っているかのような自然な表現で歌えるようになった。VocaListenerを応用してVOCALOIDの合成結果をより人間に近づけた歌声は,既に「ニコニコ動画」で公開され,そのリアルな歌声に注目が集まった。

自然な歌声を特殊な技能がなくても合成できる

 VOCALOIDは音符と歌詞を入力するだけで,思い通りの音源(仮想的な歌手の声)で歌わせることができる技術である。ここで、声の高さと大きさの変化等をパラメータとして細かく指定することも出来る。事前に人間の歌声を録音しておき,その歌声波形の断片を切り貼りして加工することで歌声を合成する仕組みである。しかし、何の工夫も無く合成すると,不自然なノッペリした印象の歌声になってしまう。より人間が歌っている歌声に近づけるためには,パラメータを人手で細かく調整する作業が不可欠になる。この作業には高度な技能が必要であり,長い時間がかかる。

図2 VocaListenerの処理手順
図2 VocaListenerの処理手順

 こうした調整作業を自動化する技術がVocaListenerである(図2)。VocaListenerでは,ユーザーが元歌をお手本として与えると、その歌声を自動的に分析して歌い方を真似るようにVOCALOIDのパラメータを自動推定する。また、歌詞のどの部分をお手本が歌っているのかを自動的に対応付けることで,歌詞の各音節の高さを推定し,音符化して歌声合成用の楽譜も自動生成する。このパラメータ推定では、あたかも何度も発声練習するかのように、合成した後の歌声を分析し,お手本との相違が生じている部分のパラメータを補正して再度合成する。こうした処理を何度も反復し,合成した歌声の品質を向上させる。それでも不自然な部分は,ユーザーが該当部分を指定すると複数の修正候補が自動的に示され,適切なものを選択するだけで自然な歌声に修正できる。こうした調整の自動化によって,調整時間が大幅に減少するだけではなく、調整に関する知識を持たないユーザーでも圧倒的に自然な歌声を簡単に合成できるようにもなった。しかも,歌声合成ソフトや音源を切り替えても,元歌が同じならば,再調整することなく,合成できるようにもなった。

本件についてのお問い合わせ先

独立行政法人 産業技術総合研究所
広報部広報業務室
〒305-8568 茨城県つくば市梅園1-1-1
つくば中央第二 つくば本部・情報技術共同研究棟
TEL:029-862-6216
FAX: 029-862-6212
E-mail: presec @ m.aist.go.jp

ページトップへ

家電
FPD
通信
半導体
半導体製造
EDA
電子部品
組み込み
クルマ
もの・IT
機械・産業機器
エネルギー
産業動向