半導体の微細化の限界が近づく中で、従来のコンピューティング手法の代わりに、レーザー光を用いた技術をAI(人工知能)の高速化に利用できないか――。

半導体レーザーの出射光を鏡で反射させて戻すと、出力強度が振動する「レーザーカオス」信号が得られる。(図:NICT)
半導体レーザーの出射光を鏡で反射させて戻すと、出力強度が振動する「レーザーカオス」信号が得られる。(図:NICT)
[画像のクリックで拡大表示]

 情報通信研究機構(NICT)と埼玉大学、慶応義塾大学のグループは、半導体レーザーの物理特性を活用してAIの学習処理の一部を高速化する技術を開発した。AIに適切な行動を学習させる一手法である強化学習注1)に必要な、高品質の乱数を50psと極めて高速に発生できる。この技術を使って、強化学習の中でも有名な最適化問題「多本腕バンディット問題」の学習を高速化できることも実証した。今後は改良を進めて、無線通信における高速な周波数の割り当てや、大規模な計算を複数の計算資源に適切に割り当てて高速化する「アービトレーション(調停)」など、複雑な状況下の意思決定問題への応用を目指すという。

注1)強化学習は、ある環境下で計算機が試行を繰り返し、環境から得られる報酬を最大化するように行動することで、適切な行動を自ら学ばせる機械学習の手法。人間が、手本となる正解データを用意して学習させる必要がないため、明確な行動ルールを設定しにくい未知の環境下での課題に向く。2016年3月にトップ棋士を破った英DeepMind社の囲碁ソフト「AlphaGo」などに搭載された技術として注目を集めた。ロボットの自律制御や自動運転分野などへの応用が期待されている。

 NICTらは、半導体レーザー特有の現象「レーザーカオス」を乱数発生に用い、独自の強化学習手法と組み合わせたシステムを開発。このシステムに、多本腕バンディット問題を解かせた。多本腕バンディット問題は、スロットマシンで遊ぶギャンブラーをモデルにし、「複数台のスロットマシンのうち、当たる確率の高い『当たり台』をできるだけ早く見つけて報酬を最大化する」問題だ。実証実験ではスロットマシンが2台の場合を想定しており、開発したシステムは単純な二者択一問題を解けるだけである。ただし、この手法を多段階で適用するなどの方法で、多数の選択肢から適切なものを選ぶ問題への拡張は比較的容易という。

多本腕バンディット問題は、複数のスロットマシンの中で最も当たり確率の高い「当たり台」をできるだけ早く探索する課題。計算資源の調停や無線通信の周波数割り当てなどに応用できる。(図:NICT)
多本腕バンディット問題は、複数のスロットマシンの中で最も当たり確率の高い「当たり台」をできるだけ早く探索する課題。計算資源の調停や無線通信の周波数割り当てなどに応用できる。(図:NICT)
[画像のクリックで拡大表示]