《日経Robo》言語の創発：機械はどのようにコミュニケーションできるのか

PFN岡野原氏によるAI解説：第21回

岡野原大輔

Preferred Networks 取締役副社長

2017.03.10

この記事は日経Robotics 有料購読者向けの記事ですが
『日経Robotics デジタル版（電子版）』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

著者の岡野原大輔氏

　現在、機械同士のコミュニケーションは人が設計したプロトコルに従って実現されている。そして、タスク、コンテキストに応じて情報をどのように表現し、それを送り手、受け手がどのように処理するかは人が仕様を決め、プログラムなどで実現されている。

　一方、人同士は主に自然言語を用いて多様かつ柔軟なコミュニケーションを実現できる。自然言語の表現力は高く、ありとあらゆる現象、情報、知識を表現することができ、それを相手に伝えることができる。

　例えば、昨日の野球の試合結果を自然言語では「3−0でチームAが勝利した。負けたチームBは、先発投手は安定していたが中継ぎが崩壊した。チームBにとって唯一のチャンスであった8回裏はサインプレーのミスでダブルプレーに終わり、新加入Cの連携不足が露呈した。」と表すことができる。この文章を読めば、実際に起こった野球の場面を想像することができる。この情報を他の手段（例えばJSONやXML、RDFなど）で表現することは困難である。自然言語が人の情報の表現手法、コミュニケーション方法の“デファクトスタンダード”になっている。

機械ならではのコミュニケーション

　しかし、自然言語はあくまで人という動物が進化の過程で獲得した一手段である。人は自然言語を使って考え、情報を表現し伝えているので、あたかも情報の表現方法が自然言語しか存在しないように考えてしまうが、自然言語以外にも情報の表現方法やコミュニケーション方法があってもおかしくないだろう。特に機械、そして有線・無線ネットワークは人間とは異なる特性をもつので、現在の自然言語とは異なる機械に適した情報の表現方法、コミュニケーション方法があってもよい。

　それでは自然言語によるコミュニケーションに匹敵、またはそれを超えるようなコミュニケーション方法を機械はどのように作ることができるだろうか。

　機械が新しい言語を生み出すということは古くから試みられている^1）が、ここでは機械同士が協調してタスクを解く過程で文字、単語や文に相当するような新しい単語を生成する例をみてみよう^2）。

　図1のように、情報の送り手は自分が持っている画像に関する情報をメッセージで送り、受け手はメッセージを受けとって、たくさんある画像の中からどれを指しているのか推定するゲームを解くことを考えてみる。送り手側は受け手が対象画像を持っていることは知っているが、その他にどのような画像集合をもっているのかを知ることはできない。そして、このメッセージは自然言語のような離散記号の可変長系列から成るとする。

図1　自然言語の学習に使った問題設定

オランダUniversity of AmsterdamのSerhii Havrylov氏らによる。参考文献2）のFigure 1より引用。（図： University of Amsterdam）

[画像のクリックで拡大表示]

　送り手、受け手ともにRNNを使い、ユニットにはLSTMを利用する。送り手は入力画像を基に可変長の離散記号からなるメッセージを1つずつ生成し、メッセージの終わりを示す記号を生成して終了する。受け手はメッセージを1つずつ終わりまで受信した上で、どの画像を指しているのかを推定する。受け手の最終状態から画像マッチング用のベクトルを計算し、このベクトルとの内積が最も大きい画像を推定結果とする。学習の目的関数には、ヒンジ損失関数を使い、正解の画像のスコアが不正解の画像のスコアより大きくなるように学習する。

キリンやクマなど意味を持つ離散記号を獲得

　学習は、この送り手側の操作（符号化）と受け手側の操作（復号化）をつなげて全体の過程を1つの計算グラフとみなして行う。誤差逆伝播法で符号化、復号化のモデルを学習する。しかし、この計算グラフには離散記号を決定する部分で微分不可能な離散化ステップを含むために、直接、誤差逆伝搬法を使って学習することができない。

　こうした離散分布を含む場合、従来は尤度比法を使って勾配を推定していたが、その場合、分散が大きすぎて現実的に学習することができなかった。この研究では、昨年発見されたGumbel-Softmax Trickという手法を使う。これは、順計算時は離散化した上で計算し、逆計算時にはSoftmax分布を決定的な関数とGumbel分布からのノイズの組み合わせで構成して学習する手法である。順計算と逆計算で異なる計算グラフを使うため勾配推定にはバイアスが含まれるが、分散が低く離散変数の種類数が大きくても学習することができる。彼らの実験では離散記号の種類は10000種だった。

　彼らの実験では、受け手が127枚の候補画像から1枚を推定するタスクにおいて95％の精度で当てられるように学習することができた。

　そして、獲得されたメッセージの離散記号は意味を持っていた。ある記号に割り当てられたのは動物であり、その後に続く記号によってその動物がキリンなのかクマなのかといった分類をしていることが分かった。つまり、自然言語における文字や単語のようなものが学習によって創発されていたことになる。

　実験では、生成された言語がどの程度、自然言語に近いのかも確かめられ、ある程度、概念に共通部分があることが分かった。このような学習の過程により、究極的には自然言語に匹敵するような文法構造や品詞体系を獲得できるのかはこれからの課題である。

　機械は人間とは違って並列にコミュニケーションをとることができ、さらにベクトルのような連続表現も直接伝えることができる。必ずしも離散的な系列で情報を表現する必要はない。さらに、人間は数人としか同時にコミュニケーションがとれないが、機械は数万台ともコミュニケーションをとることができる。こうした機械の特性を活かした新しい表現方法、コミュニケーションを作ることができるかが注目されている。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

1）S. Kirby,“Natural Language from Artificial Life,” Artificial Life, vol.8, no.2, pp.185-215, 2002.
2）S. Havrylov et al.,“Emergence of Language with Multi-agent Game：Learning to Communicate with Sequences of Symbols,” ICLR 2017 workshop submission.

岡野原大輔（おかのはら・だいすけ）
Preferred Networks 取締役副社長

2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士（情報理工学）。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。