《日経Robo》WaveNet：自然な音声や音楽を生成可能なニューラルネットワーク

PFN岡野原氏によるAI解説：第16回

岡野原大輔

Preferred Networks 取締役副社長

2016.10.10

この記事は日経Robotics 有料購読者向けの記事ですが
『日経Robotics デジタル版（電子版）』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

著者の岡野原大輔氏

　ニューラルネットワークは画像認識や音声認識といった認識のタスクだけでなく、生成の分野でも成功している。例えば、DCGANをはじめとした手法では、現実の写真と見違えるような自然画像や人が書いたような絵を生成可能となっている。

　この認識と生成のタスクは表裏の関係にある。認識は与えられたデータからそのデータの因子またはそれを構成する要素を推定するタスクであり、逆に生成は因子からデータを生成するようなタスクである。物理学者のRichard Feynman氏はこれを「作ってみせることができなければ理解したとはいえない」と端的に言い表している。

　先日、米グーグルのDeepMindが自然な音声を生成可能なニューラルネットワークであるWaveNetを発表した^1）。WaveNetによって合成された音声は現在の最高レベルの音声合成と比べて、主観ブラインドテストで50％もの性能向上がみられた。実際に生成された音声や音楽については同社のWebサイト^注1）で聞くことができるので聞いてみて欲しい。

注1）https://deepmind.com/blog/wavenet-generative-model-raw-audio/

従来とは全く異なるアプローチを採用

　WaveNetは従来の音声合成とは全く異なる手法を用いて音声を合成している。従来手法では、例えば1人の話者から採取した大規模な音声データをフラグメント（断片）に分け、それらを組み合わせる手法が使われていた。この場合、話者を変えたり、強調や感情を入れたりすることが難しかった。一方で、音声モデルをパラメータで表現する手法の場合は自由度は上げられるが、不自然な音声が生成される問題があった。

　WaveNetはこれらの手法とは全く異なるアプローチを取っている。16KHzの音声データであれば1秒間に16000点の連続値があるデータとみなし、各値を順に次々と生成する問題とみなした。この場合、音声は低周波から高周波領域まで相関があるので、数千ステップも離れたデータとの相関を保てるようなモデル化が必要となる。

　WaveNetがこれを実現できたのには3つの技術的背景がある。

昨年末ごろから注目され始めた自己回帰モデル

　1つ目は自己回帰モデルである。自己回帰モデルとは自分が過去に出力した値に依存して次の値を出力するようなモデルである。

　例えば、時刻tの値をx_tとした時、x_tが出力される確率をp（x_t|x_t₋₁,x_t₋₂,_…）のように定義する。これらの条件付き確率の積は同時確率のため、自己回帰モデルはデータxに関する次のような生成モデルとみなすことができる。

　自己回帰モデルは、複雑な確率モデルを単純な確率分布の積に分解できるために複雑な確率分布を学習しやすい。

　現在のニューラルネットワークの生成モデルの主流は潜在変数モデルを使ったモデルであり、のように表される。全出力が潜在変数に条件付けられ、まとめて生成されるようなモデルである。潜在変数の場合、データ全体の因子を表すことは得意であるが、データの詳細な相関を表すことは難しい。

　昨年末頃から画像生成に自己回帰モデルを使ったモデルが登場し^2-3）、それらが従来の潜在変数モデルを使った手法よりも尤度が高く（つまり実際に観測されたデータに対し、より高い確率を割り当てられる）、生成された画像の品質も高いため注目されていた^4）。画像の場合、画素同士の依存関係に方向はないが、適当に生成の順序を決め、各画素を左上などから順番に既に生成した画素に条件付けをして生成をしていく。

　自己回帰モデルの場合、データを1つずつ順に生成をするためステップ数が大きくなる問題があったが、学習についてはCNN（畳み込みニューラルネットワーク）のようにまとめて生成をさせるようにすることで、学習の効率を大きく上げることができた。

　この場合、CNNとしては過去の情報に対応するニューロンから未来の情報に対応するニューロンにしかつながらないようにすることで達成できる。

CNNでのつながりをスキップ

　2つ目はDilated Convolutionである（図1）。CNNは層間で近傍同士がつながっているような構造をとっている。ある層のニューロンが下の層のどの範囲のニューロンとつながるかのサイズをカーネルサイズとよび、その下の層も含めて対応する入力の範囲を受容野と呼ぶ。

図1　Dilated Convolutionの仕組み

上はCausal Convolutionの場合、下はDilated Convolutionの場合。（図：グーグルDeepMind）

[画像のクリックで拡大表示]

　例えばカーネルサイズが5×5の場合、あるニューロンは下の層の5×5の領域とつながっている。次の層のカーネルサイズも5×5の場合、5×5のそれぞれのニューロンが5×5でつながるので2つ下の層の9×9の領域が対応する。一般にカーネルサイズがk、層数がlの時、その受容野のサイズはl（k−1）+1×l（k−1）+1となる。

　CNNでは層を増やしても、その受容野サイズは線形にしか増えないので、入力全体を受容野にしたい場合は層の数を入力サイズに比例して増やさなければならない。この問題はCNNにおいて上の層で一定間隔ごとにニューロンをスキップして詰めることで解決できる。

　例えば上の層で1個おきにスキップするようにすれば、受容野は2倍ずつ広がる。しかし、この場合は対応するfeature mapのサイズも1/2となる。最終的にfeature mapを1×1にしたい分類タスクのような場合はスキップで十分だが、セグメンテーションや今回の自己回帰モデルのような入力と出力のサイズが同じ場合、feature mapのサイズを入力と同じようにしたい。

　Dilated Convolutionは上の層になるほどk倍スキップしたつながり方をすることでこれを解決する^5）。例えばk=2で4層の場合、1番上の層は2³=8個おきにつながり、2番目の層は2²=4個おきにつながり、3番目の層は2¹=2個、4番目の層は2¹=0個おきにつながる。この場合、1番上の層のニューロンの受容野のサイズは16×2=32となる。

　WaveNetは9層のDilated Convolutionを使い、512ステップ、受容野は1024であり、240msに相当する。このDilated Convolutionを複数層重ねて使う。実際には数万ステップ離れた値の情報も使って予測することが可能となる。

混合ガウシアンは使わず離散分布で生成

　3つ目は連続値を混合ガウシアンでモデル化するのではなくカテゴリ値としてみなし、離散分布を使って生成する手法である。些細な違いのようだが、生成されるデータの品質が大きく変わってくる。このアイデアは、WaveNetと同じくDeepMindが考案した画像向け生成モデルであるPixel CNNで最初に使われ、今回それを応用した。離散分布の場合、任意の確率分布を表現することができ、ガウシアンと違ってデータ分布に対する仮定が必要ない。一方、離散分布の場合、パラメータ数が多く推定が難しい問題があるが、ニューラルネットワークによってパラメータ共有することでこの問題も解決する。

今回の技術は音声認識にも波及

　WaveNetは、音声を1つずつ生成するという非常にシンプルなアプローチで自然に聞こえる音声や音楽を生成できたという点で非常に意義が大きい。

　今後の課題として一番大きいのは生成が遅い点である。WaveNetは自己回帰モデルを使っているため、生成時はデータを1つずつ順に生成しなければならない（学習時はこの問題がないことに注意）。新たに生成する場合、各層の計算の大部分は既に計算済みであるため高速化できるものの^6）、リアルタイム合成をするためには、いくつかのブロックをまとめて生成するなどの工夫が必要そうだ。

　もう1つの課題としては、認識への応用である。音声認識分野では従来、メル周波数ケプストラム係数のような工学的に設計された特徴が使われていたが、ここ最近は生の音声を直接モデル化し、このような特徴も学習で獲得するような流れに変わってきた。WaveNetを使ったモデル化では、生の音声データからの音声認識精度は最高精度を達成している。既存手法と比べると認識精度の面でまだギャップはあるものの、今後、従来の認識手法を性能面でも上回る可能性がある。

1）A. Oord et al.,“WaveNet: A Generative Model for Raw Audio,”http://arxiv.org/pdf/1609.03499v2.pdf
2）A. Oord et al.,“Pixel Recurrent Neural Networks,”https://arxiv.org/pdf/1601.06759v3.pdf
3）A. Oord et al.,“Conditional Image Generation with PixelCNN Decoders,”https://arxiv.org/pdf/1606.05328v2.pdf
4）岡野原、「Generative Adversarial Networks、ニューラルネットを競合させ生成モデルを鍛える」、『日経Robotics』、2016年5月号、pp.36-37
5）F. Yu et al.,“Multi-Scale Context Aggregation by Dilated Convolutions,”https://arxiv.org/pdf/1511.07122v3.pdf
6）https://github.com/tomlepaine/fast-wavenet

岡野原大輔（おかのはら・だいすけ）
Preferred Networks 取締役副社長

2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士（情報理工学）。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。