この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 現在のデジタルコンピュータは計算処理を担当するプロセッサと1次記憶や長期記憶を担当する外部メモリから構成される。

 計算の際に外部記憶に格納されている値を参照する仕組みは変数や関数の仕組みの実現につながり、問題の抽象化を達成する。例えばf(x,y)=2x+yという関数は変数xとyを変えることで再利用でき、別の関数の結果を変数として使うことで関数同士を組み合わせることもできる。さらには関数自身を変数とみなすこともでき、高階関数のような高度な計算能力を備えた計算機を実現できる。

 また、拡張可能な外部記憶は、新しいタスクを効率よく覚えられるという長所がある。記憶容量が固定の場合、新しいタスクを覚えるたびに既存の記憶が汚染され、既存のタスクの性能が低下する恐れがある。新しいタスクを覚えるごとに記憶領域を増やすことで、既存の知識を汚染せずに学習することができる。

Neural Turing Machineの後継版

 このような外部記憶を備えたニューラルネットワークとして、Differentiable Neural Computers(DNC)1)を紹介する。これは本連載記事の第1回に取り上げたNeural Turing Machine(NTM)の後継であり、NTMより複雑なタスクを解けるようになった。

 DNCはNTMと同様にプロセッサに相当する微分可能なコントローラと、外部メモリに相当する外部記憶から構成される。DNCは外部記憶にデータを読み書きするが、この位置を決めるのがソフトアテンションとよばれる機能であり、通常の記憶装置と同様に書き込みヘッド、読み込みヘッドと呼ぶことにする。DNCのヘッドは通常の離散的なアドレッシングとは違って、位置に対する重み分布を使ってどこに書き込むか、どこから読み込むのかを決める。外部記憶はN個の行から構成されるN×Wの行列Mで表される。別の言い方をすれば外部記憶は1次元のアドレス[1, 2, ・・,N]を持ち、各アドレスには長さWのベクトルが格納されている。読み込み時のアテンションは長さNの実数ベクトルwrで表され、これにより読み込み結果のベクトルrは

として表される。ただし、M[i,・]はMのi行目のベクトルを意味する。同様に、ベクトルvを外部記憶に書き込む場合は書き込みヘッドである長さNのベクトルwwを使い、さらに長さMの消去ベクトルeを使い、次のように外部記憶を更新する。

M[i,j]M[i,j](1−ww[i]e[j])+ww[i]v[j]

コントローラは各時刻に、入力xと前の時刻の読み込み結果rを受取り、これらの入力情報とRNNの内部状態に基づいて出力yと書き込む内容v、そして読み込みヘッドwr、書き込みヘッドwwを出力する。この書き込みヘッドに基づいて、外部記憶にvが記録される。

アテンションの仕組みを活用

 DNCの核心はどのように読み込み/書き込みヘッドwr、wwを決めるのかである。DNCは3つの微分可能なアテンションを組み合わせてヘッドを決定する。

 1つ目は、コンテンツベースのアテンションである。連想記憶と同様に、コントローラにより決定されたキーベクトルkとのコサイン距離を重みとしてアテンションを決め、似ているほど1に近く、似ていない場合は0になるような重み分布を与える。このコンテンツベースのアテンションは補完の役割を果たす。例えば、猫の半分しか写っていない画像に対応するキーから、過去の猫の全体を捉えた記憶を思い出すことができる。

 2つ目は、連続するステップで書き込んだ順を覚えておき、それを利用してアテンションを決める。N行N列の時間遷移行列Lは、L[i,j]が位置jに書き込んだ後に位置iに書き込んだ場合に1に近く、そうでない場合は0となるような行列とする。ある時刻の重み分布をwとした時、行列Lを掛けたLwは次の時刻に書き込んだ位置に相当する重み分布となり、LTwは1つ前の時刻に書き込んだ位置に相当する重み分布となる。

 このLを使えば、過去に書き込んだ順番に応じて読み込むことが可能となる。以前のNTMでは連続した位置、例えばiの次はi+1といったように書き込むようにしていた。しかし、コンテンツベースのアテンションの仕組みがあると、書き込む位置は位置上としては非連続となり、NTMは位置情報ベースだけでは途中で記憶をたどれなくなるという問題があった。DNCはこの時間遷移行列Lを使うことで外部記憶上に仮想的な遷移グラフを作り、多様な記憶の系列を保存し、読み込むことが可能となった。

 3つ目は、使っていない空いている領域にアテンションを掛ける仕組みである。これはメモリ割り当てにおけるフリーリストと同様の役割を果たす。各位置にその位置がどの程度重要な新しい情報を含んでいるか、過去に使われたかといった情報を保存しておく。そして書き込む際は最も使われていない領域にアテンションを掛け、そこへ書き込むようにする。

 この3つのアテンションの仕組みを組み合わせて最終的な読み込みヘッダ、書き込みヘッダを決める。DNC全体は誤差逆伝播法を使って学習可能であり、教師あり学習や強化学習と組み合わせて使うことができる。

質問応答タスクで過去最高のスコア

 DNCの性能評価として、最初に米Facebook社のAI Researchが公開しているbAbIデータセットでDNCを評価した。これは20種類の質問応答タスクからなる(図1)。例えば「羊は狼が怖いです。ドリーは羊です。ネズミは猫が怖いです。ドリーは何が怖いですか」(答:狼)といった質問応答である。この場合は、短期記憶、推論能力に加えて、関係の無い情報に惑わされない(ネズミは関係ない)能力が求められる。

図1 bAbIデータセットでの質問応答タスクの例
図1 bAbIデータセットでの質問応答タスクの例
米Facebook社が公開した質問応答向けのデータセットである。全部で20種類の質問応答タスクが定義されている。上記はその一例である。赤字部分が質問に対する正しい答え。(質問応答:米Facebook社)
[画像のクリックで拡大表示]

 DNCは20種類の質問と10000の質問応答タスクにおいて3.8%のエラー率となり、従来手法の最高精度である7.5%を大きく超えた。また、これは同様に短期記憶を実現するLSTM(25.2%)やNTM(20.1%)のエラー率を大きく上回っている。

 bAbIは自然言語データではあるが、そこに書かれている事実は(羊−怖い→狼)のようにエンティティをノード、関係をエッジ上のラベルとしたラベル付き有向グラフで表すことができ、質問応答はそのグラフ上での操作に対応付けることができる。DNCは時間遷移行列を使ってグラフ構造を記憶でき、コンテンツベースのアテンションでノードや枝の類似性に従ってたどることができると考えられる。

 このグラフを扱う能力をさらに検証するため、2つ目の実験としてグラフデータに対するタスクでDNCを評価した。具体的にはランダム有向グラフや地下鉄の路線図、家系図といったグラフデータを与えた上で、巡回問題(例:大手町駅から三田線、次に有楽町線に乗って豊洲に行くにはどの駅をたどるのか)、最短経路問題(例:大手町から渋谷駅まで最短でどのような経路をたどればよいか)、推論問題(例:徳川慶喜の母方の大叔父は誰か)といったタスクで評価した。

 グラフ情報は、bAbIと同じように各エッジを順番に提示することで読み込ませている。学習の際は、カリキュラム学習を利用しており、簡単で小さなグラフでタスクを学習させてから、順に大きくて複雑なグラフを与えて学習を行った。DNCは多くのグラフの問題を解くことができ、従来の学習手法では全く解けないような場合も解くことができた。

 最後のタスクとして、Mini-SHRDLUというブロックパズルゲームを解かせた(図2)。このタスクでは、例えば、3×3のマス目に1から6の数字が積み重ねられており、各列の一番上にある数字を別の列の一番上に移動することができる。その上で6は2の下、4は1の右といった拘束条件が与えられ、初期状態から、与えられた拘束条件を全て満たすような状態への遷移方法を求めることが目標となる。DNCはこのMini-SHRDLUもカリキュラム学習を通じて学習することができ、多くの問題を解くことができた。興味深いことに、DNCはこれから実行する行動を最初に外部記憶へ書き込んでいることがわかった。つまりDNCは計画を立てた上で、実行していることがわかった。

図2 ブロックパズル「Mini-SHRDLU」タスクの例
図2 ブロックパズル「Mini-SHRDLU」タスクの例
「各列の一番上にある数字を、別の列の一番上に移動できる」というルールである。

人では思い付かないアルゴリズム考案の可能性も

 ニューラルネットワークが連続的で確率的な問題だけではなく、このような離散的で手続き的なタスクを学習できると示したことは非常に重要である。人はこれまでアルゴリズムを発明し、プログラムを書くことができたが、全てが得意なわけではない。例えば、性能が出て正しく動作する並列アルゴリズムを書くことは困難である。DNCは並列で読み書きをし、効率よく解くアルゴリズムを発明し、今後の進化次第では人では思いもつかないようなアルゴリズムを発明できる可能性もある。

 また、外部記憶が拡張可能であり(アテンションの仕組みは外部記憶のサイズに依存していない)、次々と新しいタスクを学び続けることができる方向が示されたことも重要である。DNCの成果は既に実用段階にある画像認識や音声認識と比べてまだ萌芽的ではあるが、今後大きな発展が期待される。

1)A. Graves et al.,“Hybrid computing using a neural network with dynamic external memory,” Nature, 538, pp.471-476, 2016.
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。