(前回から続く)

歌えるように抜本的に改良

 コンピュータに歌わせる――そう志した剣持が,後にVOCALOIDと名付けられる技術の開発に着手したのは2000年3月である。当時既に,サンプリングされた歌声でメロディを奏でられる機器や技術はあったが,「歌詞を載せて歌う」にはほど遠い代物だった。

 リアルな歌声を実現するには「従来の技術の延長線上では無理」と判断した剣持は,歌声合成の技術をイチから開発し直すことを決意する。こうする方が唯一残った未踏峰である「人間の歌声」を征服する近道だと考えた。

 VOCALOIDは,データベースに収めてある音の単位,「音声素片(音素)」を組み合わせて歌声を合成する。母音から子音に変化するもの,子音から母音に変化するものなどの音素を組み合わせて歌声を表現する。例えば「Sing」という歌詞を歌わせる場合,先頭の「#s」,子音から母音への変化「s- I」,母音「I」,母音から子音への変化「I-N」,末尾の子音「N#」という五つの音素をつなげる。

 ただし,リアルな人間の歌声を実現するには単に音素をつなげるだけでは足りない。ロボットのような不自然な歌声にしか聞こえないのだ。これを解決するため,剣持らは再生するタイミングや音素間の音色の違いを調整するなどして解決を図った。

 そもそも人間の声には複数の周波数成分が含まれている。この周波数成分のピークをつなげた包絡線が「音色」となる。音色は音素によって異なるため,単に音素を連結するだけではつなぎ目の部分が不連続となる。これが,歌声が不自然になる一因である。

 そこで,このつなぎ目部分で包絡線が滑らかに変化するようにした。具体的には,つなげる音素の二つの包絡線を検波し,そこからスペクトルの補間処理を施した。その後,補間処理した包絡線に合わせるように,各周波数成分の周波数軸上の間隔(ピッチ)と強度を変える。こうした地道な調整を繰り返して歌声を徐々に人間に近づけていった。注1)

注1) さらに,音素の再生位置も調整する必要があった。音節の母音の開始部分と,音符の開始されるタイミングに合わせ,タイミングよく歌詞を聞こえるようにするためである。

VOCALOIDは,スコアエディター,歌声ライブラリ,合成エンジンから成る。まず,スコアエディターに音符と歌詞,音楽的な表情といった情報を入力する。スコアエディターに入力したデータを基に,合成エンジンは歌声を合成するのに必要な音声素片(音素)を歌声ライブラリから取り出して連結させる。例えば「Sing」という歌詞を歌わせる場合,複数の音素を収めた音素データベースから「#s」「s\-I」「I」「I\-N」「N#」という五つの音素を引き出してつなげる。ビブラートを利かせるなど,歌に表情をつける場合は表情データベースから,こうした表現に必要な周波数情報などを得る。また,音素を単に連結させるだけでなく,人の歌声に近づけるために再生するタイミングや音素間の音色の違いを調整する。なお,音素を作るには,録音した人間の声から切り出して加工する。
VOCALOIDは,スコアエディター,歌声ライブラリ,合成エンジンから成る。まず,スコアエディターに音符と歌詞,音楽的な表情といった情報を入力する。スコアエディターに入力したデータを基に,合成エンジンは歌声を合成するのに必要な音声素片(音素)を歌声ライブラリから取り出して連結させる。例えば「Sing」という歌詞を歌わせる場合,複数の音素を収めた音素データベースから「#s」「s-I」「I」「I-N」「N#」という五つの音素を引き出してつなげる。ビブラートを利かせるなど,歌に表情をつける場合は表情データベースから,こうした表現に必要な周波数情報などを得る。また,音素を単に連結させるだけでなく,人の歌声に近づけるために再生するタイミングや音素間の音色の違いを調整する。なお,音素を作るには,録音した人間の声から切り出して加工する。
[画像のクリックで拡大表示]