この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 ニューラルネットワークは多くの問題を解くことができるが、より困難な問題を解くには、複雑な確率分布に基づいたサンプリングや推論ができ、尤度評価ができ柔軟性の高いニューラルネットワークが必要とされている。さらにこうしたニューラルネットワークは教師なしデータを使って学習可能であることが望まれる。

 現在、確率分布を扱うニューラルネットワークは2つに大別される。

  1つ目は有向グラフィカルモデルに基づいた確率モデル(変分自己符号化器(VAE)、敵対的生成モデル(GAN)など)であり、データ分布に従って高速にサンプリングできるという特徴がある。

  2つ目は無向グラフィカルモデルから導出されるエネルギー関数に基づいた確率モデル(ボルツマンマシン、ホップフィールドネットワークなど)である。

 この場合、観測変数や潜在変数間の依存関係を直接、設計できるという特徴がある。しかし、サンプリングをするためには、エネルギー関数から導出されるMCMC(マルコフ連鎖モンテカルロ法)を使ってサンプリングする必要があり、時間がかかる。また、このエネルギー関数に対応するニューラルネットワークの重みは対称(Wi,j=Wj,i)であるという強い制約を課する。脳内の領域間は双結合はみられるが、重みに対称性があるとは考えられていない。そのため、脳がこのようなエネルギー関数に基づいた確率分布を扱っていることは考えられない。

確率的に遷移を計算するVW

 これらに対し、最近、確率分布を扱うVariational Walkback(VW)とよばれる新しいモデルが提唱された1)。VWは、RNNのように再帰結合を使って状態を更新していき、各遷移計算は決定的ではなく確率的な計算を利用する。この遷移関数(重み)は対称である制約はなく計算にノイズが含まれており脳内の計算モデルに近いと考えられる。

 VWは次の時刻のデータht+1を現在のデータhtに条件付けられた確率分布pに従ってサンプリングする。

ht+1~p(ht+1│ht

このようにして、一定時刻経った後のデータの分布がVWの表す確率分布を表す。

 このVWを使って特定の確率分布を学習させる場合、誤差逆伝播法を使うことは困難である。RNNのような再帰計算が含まれる場合でも、その計算過程を時間方向に展開することで誤差逆伝播法を使うことはできる。これをBPTT(Back Propagation Through Time)とよぶ。また計算グラフに確率的分布からのサンプリングが含まれる場合でも、変数変換トリックやREINFORCEなどを使いその勾配の期待値を推定することができる。しかし、VWのようにサンプリングが繰り返された場合、勾配推定の分散は非常に大きくなってしまい、最終時刻の分布を最適化するために各時刻の遷移関数をどのように修正すればよいかがわからなくなってしまう。

VWでのデータの生成

 VWモデルではデータの生成過程を次のように考える。はじめにsKを各次元が独立であるガウシアンや一様分布のような簡単な分布p(sK)からサンプリングする。

sK~p(sK

次のステップのデータは確率的な遷移関数pからサンプリングされる(時刻が逆順である理由は後で説明する)。

st−1~pTt(st−1│st

ただし、Ttは時刻tにおける温度である。各時刻で遷移関数pの温度を変えてサンプリングする。温度が高ければ一様分布に近くなり、温度が低ければ決定的な関数に近づく。この温度は最初は空間全体を遷移できるように大きくしておく。その後、徐々に温度を下げていき最終的にt=0において、s0がデータ分布に従って生成されるようにする。

 この生成過程は次のような同時確率分布を与える。

 
 

一方で学習データを時刻毎に破壊していく過程を考える。

st~qTt(st│st−1

この過程では徐々に温度を上げていく。そして、最後には一様分布やガウシアンのような単純な分布となるようにする。この破壊過程は次のような同時確率分布を与える。

このステップ数Kは確率分布から毎回選ばれるような確率変数である。

 VWでは、符号化器と復号化器に同じネットワークを使う。つまり、p=qである。同時確率分布p(s0k)、q(s0k)は初期確率p(sK)、q(s0)の部分だけが異なるようにみなせる。温度を下げていけばノイズ分布をデータ分布に変え、上げていけばデータ分布をノイズ分布に変えるように遷移関数pを学習していく。

 学習ではデータ分布q(s0)からスタートし、崩壊過程を使って次の時刻のデータをサンプリングする。そして、元のデータに戻るように学習する。

このように各時刻毎に1つ前の時刻の状態に戻るように学習するため、BPTTをする必要がない。

偽のモードを見つけて修正

 このアイディアはデノイジング自己符号化器と似ている。デノイジング自己符号化器ではデータに一様なノイズを加えた上で、それが元に戻るように学習する。このとき、学習が進むと、元に戻るような関数はデータの対数尤度の勾配を求めていることに対応することが知られている。一方VWでは一様なノイズではなく、復元と同じ関数を使って遷移させる。

 ノイズにも同じ関数を使うことで、モデルが誤って高い確率を割り振っているモード(spurious modes:偽のモード)を見つけ、それを修正することが期待される。遷移関数に従って遷移していくと、誤って高い確率を割り振ってしまった偽のモードに到達し、そこから元のデータ分布の領域に戻るように学習されるからである。

 このVWの学習則はヒューリスティクスのように見えるが、変分法による最尤推定として定式化することができる。観測変数をv、潜在変数をhとしたとき、潜在変数を周辺化した対数尤度は次のようになる。

ただし、qはpとは異なるかもしれない別の確率分布である。

 ここで、v=s0 、h=s1kとした場合、

 この第1項は変分下限Lとよばれ、DKL[(q(s1k│s0)││p(s1k│s0)]≥0であることから、lnp(v)≥Lのように対数尤度の下限を与える。学習の始めに変分下限を上げるようにpのパラメータについて最大化する。これは、先程のようにqに従ってサンプリングした上でそれが元に戻るようにlogpを最大化することで達成される。次にq=pとすることで、第2項のKLダイバージェンスを小さくする。この2つ目のステップは第1項にも影響があり、必ずしも対数尤度のパラメータqについての勾配には対応していない。この2つのステップを繰り返すことで、対数尤度を最大化する。

統計物理の準静的過程と関連

 さらに、このKLダイバージェンスは統計物理の準静的過程と関係があり、生成または崩壊過程で温度をゆっくり変化させていった場合は小さくできる。このKLダイバージェンスは統計物理の準静的過程におけるフリーエネルギーの差と等しくなる。準静的過程において状態を速く変化させたい場合はこの差よりも余分な仕事をする必要があり、その余分な仕事は熱として環境に放出される。

 同様にこのモデルを使って速く状態を変えたい場合(q(s0)からp(sK)に速く到達する、または、p(sK)からq(s0)に速く到達する)はKLダイバージェンスが大きくなってしまう。統計物理の準静的過程では多くの研究がなされているため、それらの研究成果を変分法の学習に利用できるかもしれない。

夢の仕組みと関連する可能性

 興味深いことに、このVWは、夢の仕組みと関係するかもしれないと指摘されている。脳においてシナプス前ニューロンがシナプス後ニューロンより少し前に発火した場合にシナプスが強化される学習則をSTDPとよぶ。これと同じ条件でシナプスが弱まる学習則を逆STDPとよぶ。日中、起きている時は、体験した状況が記憶されるようにこのSTDPによって重みが強化される。一方、この強化の結果、経験していないのに誤った記憶が作り出されてしまう可能性がある(上記のspurious modes)。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 夢はこのような誤った記憶であるspurious modesを遷移させることで見つけ出し、そこに到達しないように逆STDPによって学習しているとみなすことができる。これはVWの学習と一致する。夢は起きている時の経験を反映しているものの、大抵は破綻しており、おかしな経験になる現象とも一致する。

 こうした確率的な遷移関数を使った学習は今後重要になると考えられる。将来の予測、自然言語処理や強化学習などでこうした技術が必要となると考えられる。

1)A. Goyal et al., “Variational Walkback: Learning a Transition Operator as a Stochastic Recurrent Net,” NIPS 2017. https://arxiv.org/abs/1711.02282
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。