《日経Robo》Generative Adversarial Networks、ニューラルネットを競合させ生成モデルを鍛える

PFN岡野原氏によるAI解説：第10回

岡野原大輔

Preferred Networks 取締役副社長

2016.04.10

この記事は日経Robotics 有料購読者向けの記事ですが
『日経Robotics デジタル版（電子版）』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

著者の岡野原大輔氏

　GAN（Generative Adversarial Networks、敵対的生成ネットワーク）は2014年に登場し^1）、2015年後半に有効な学習手法^2）が確立されてから、急速に注目を受けるようになった。GANは特にこれまで困難だった自然画像の生成に成功し、人の顔、部屋の様子、アニメ画像、漢字、CDジャケット（図1）など様々な種類のデータをうまく生成できる。場合によっては、それが人が描いた絵なのか、機械が生成した絵なのか分からない程度まで作れるようになっている。これまで人の特権領域と思われていた創作活動を機械が実現できる可能性が出てきた。

　生成モデル（Generative Model）は、対象データがどのように生成されるのかをモデル化している。例えば、サイコロの目の生成では、1から6の目が全て等確率1/6で生成されると考えられる。生成の過程が複数の操作の組み合わせから成ることも考えられる。例えば、長さ5の文字列T=t₁t₂t₃t₄t₅について、それぞれの文字が1文字前だけに依存して生成される場合、

P（T）=P（t₁）P（t₂|t₁）P（t₃|t₂）P（t₄|t₃）P（t₅|t₄）

として1文字ずつ順に生成することで得られる。

図1　GANが生成したベッドルームの画像の例

上から4行目の生成画像では、当初の窓のない状態の部屋が、左から右に向かって、次第に大きな窓のある部屋へとスムーズに変化している^2）。（写真：米indico Research社、米Facebook社）

[画像のクリックで拡大表示]

機械翻訳などで使われる生成モデル

　生成モデルは様々なところで利用されている。与えられたデータの尤度を構成的に計算できるようになっていれば（今回紹介するGANは直接尤度を計算できず、別の手法を組み合わせる必要がある）、データの尤もらしさを評価することができる。これは音声認識や機械翻訳において、生成された文が正しいかという言語モデルで利用されている。また、生成モデルはラベル無しデータに適用できることから、条件付き確率モデルと組み合わせることで、半教師あり学習^3）を実現できる。そして何より、新しいデータを生成することができる。

　これまで、データが画像や音声など高次元であり、かつ各次元が独立でなく複雑な相関を持っている場合、生成モデルを推定するのは困難だった。例えば、S（x；θ）>0をパラメータθで特徴付けられている正規化されていない確率密度関数として、あるデータの確率密度p（x；θ）を

と表した場合、積分を必要とする正規化項（分配関数とも呼ばれる）N（θ）の推定が問題となる。全てのデータに対する積分が効率良く計算できない場合、N（θ）やその勾配の推定は非常に困難となる。

生成モデルと判別モデルを競わせて学習

　GANは2つのニューラルネットワークを競合させることで、生成モデルを間接的に学習する。1つ目の生成モデルを表すネットワークN_genは、データ集合とそっくりなデータを生成する。はじめに、zを簡単な分布（例えば正規分布N（0，I））から生成し、次に決定的な関数x=N_ge_n（z；θ）で、データxを生成する。zの生成だけが確率的な関数であり、関数N_ge_n（z；θ）は決定的な関数であることに注意してほしい。2つ目の判別モデルを表すネットワークN_di_s（x）は、与えられたデータがN_gen由来なのか、真のデータ由来なのかを判別し、N_gen由来と判別したなら1、真のデータ由来と判別したなら0を返すような関数である。

　この2つのネットワークは次の目的関数上で競合する。

ただし、x_dataは真のデータからの分布、zは先ほどの簡単な分布である。生成モデルN_genは、N_disをだますように（2）を最小化するように学習し、N_disはN_genが生成データかを見分けられるように、（2）を最大化するように学習する。例えていうと、N_genは偽金を作る人、N_disは偽金か本物かを見分ける警察官とみることができる。N_genは警察官に見分けられないようにより巧妙な偽金を作るように鍛えられていき、N_disはより些細な違いも見つけてそれを指摘し、偽金かどうかを正しく判定できるように鍛えられていく。

　この2つのモデルがうまく競争しあって育っていけば、最終的にはN_ge_n（z）は真のデータと見分けがつかないデータを作れるようになる。つまり、N_genは生成モデルとみなすことができるようになる。実際、前述の論文では、うまく学習を行えればN_genは真の生成モデルに漸近するように学習できるということが証明されている。

なぜGANでの画像生成がうまくいくのか

　なぜ、ニューラルネットを使ったモデルも含む従来の生成モデルで画像の生成は成功せず、GANで成功したかについてはまだよく分かっていないが、理由はいくつか考えられる。

　1つ目は、前述のように高次元データの場合、サンプリングによる正規化項の勾配の推定は精度が非常に低いという問題がある。GANは正規化項に関する計算は必要なく、N_disをだますように学習する。別の言い方をすれば、全てのデータを見る必要がないようにN_disがどの部分に注目すればいいのかをN_genに教えてくれる。

　2つ目は、特に生成モデル、判別モデルにニューラルネットを使った場合、これが画像のモデル化の良い事前知識になっている可能性があるということである。例えば、判別モデルにCNN（畳み込みニューラルネット）を使った場合、CNNが備える画像中のオブジェクトに対する移動不変性の特徴を生かして判別することになる。生成においては、画像中のオブジェクトが多少移動しても構わないということになる。人が画像生成の良さをみる場合、数ピクセルの平行移動はほとんど気にならない。しかし、もし各次元ごとにガウシアンでモデル化し、対数尤度で評価している場合、平行移動は非常に大きな差になってしまう。

　3つ目は、一般に生成モデルをニューラルネットワークでモデル化して学習する場合、勾配が計算できるように生成する直前でガウシアンなどを掛け、どのようなデータに対しても、それに対する勾配を計算できるようになっている必要がある。これにより、画像はぼやけたものが生成されやすくなる。一方でGANは、生成時には最初にガウシアンを掛けて、その後は決定的なニューラルネットを使うため、非常にシャープな画像を生成できる。

　GANは高次元の確率モデルを学習する手法として非常に有効であり、生成モデル以外に利用する試みも進んでいる。例えば、データの確率分布ではなく、事後確率分布P（z|x）のモデル化にGANを使ったり、VAE（変分自己符号化器）^3）と組み合わせたり、GANで獲得されたN_disの方を利用したりなどである。

　とはいえ、GANはまだ分かっていないことがほとんどである。現状では、GANの学習時は人が学習の状況を注意深くみて、うまく学習を進めていかないと、途中で生成側、判別側、どちらかが勝ち、もう片方がつぶれて、学習が進まなくなってしまう。今後の研究が待たれる。

1）I. Goodfellow et al., “Generative Adversarial Nets,” http://arxiv.org/abs/1406.2661
2）A. Radford et al., “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,”http://arxiv.org/abs/1511.06434
3）岡野原、「学習の本命『半教師あり学習』、少ない教師データで高い精度」、日経Robotics、2015年9月号、pp.34-35.

岡野原大輔（おかのはら・だいすけ）
Preferred Networks 取締役副社長

2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士（情報理工学）。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。