ニュース

NICT、レーザーカオスを用いて強化学習を超高速化

~10億分の1秒という“瞬時の意思決定”を実現

レーザーカオスを用いたシステムと超高速な強化学習の実現

 国立研究開発法人情報通信研究機構(NICT)は、半導体レーザーから生じる光カオス(以下レーザーカオス)を用いて、適応速度1GHzを実現する超高速フォトニクスを応用した強化学習に、世界で初めて成功したことを発表した。

 研究を行なったのはNICT 成瀬誠主任研究員、国立大学法人埼玉大学 大学院理工学研究科 内田淳史教授、慶應義塾大学大学院政策・メディア研究科 金成主特任准教授らで、半導体レーザーにおいて生じるカオス現象が生み出す乱雑な信号と、独自に開発した強化学習方式を組み合わせることで、「当たり確率の未知な2台のスロットマシンから当たり確率の高い台を選ぶ問題」(2本腕バンディット問題)を、光の極限性能を生かし、高速に解決することに成功した。

 強化学習は、機械学習において、未知な環境で試行錯誤をしながら学習を行なう手法。

 強化学習には、「多本腕バンディット問題」として知られる“探索”と“決断”に関するジレンマが存在し、これはワイヤレス通信における周波数の割り当て、データセンターでの計算資源の割り当て、ロボットの制御、Web広告など、現実世界で重要な応用の基礎になっており、これまでに多数の研究が行なわれてきた。

 たとえば、「多数のスロットマシンが並んだカジノで、儲けを最大にするにはどのようにするとよいか」という問題の場合、儲けを最大化するには、当たり確率が高い「当たり台」を見つけるための試行錯誤、すなわち試し打ちを行なう必要がある。

 しかし、過剰な試し打ちは損失になることがあり、当たり台が時間などで変わることもあり得る。逆に、早くに試し打ちを打ち切ってしまうと、当たり台を見逃す可能性もある。

多本腕バンディット問題

 この問題の解決には、当たり台の探索において、ランダムに台を選ぶことが不可欠となる。例えば、序盤ではランダムに選び、その後それまでの勝率を参考に選んでいく方法などがある。

 従来手法では、ランダムに台を選ぶため、コンピュータ上で生成した擬似乱数を用いていた。しかし擬似乱数は、アルゴリズムに基づいて作られるため、高速に生成することが困難で、乱数の「質」にも限界がある。

 今回の研究では、半導体レーザーから出射する光を鏡で反射させてレーザーに戻すと、レーザーの動作が不安定化しカオスが生じるという光の「カオス現象」を用いて、2台のスロットマシンから「当たり台」を選ぶ、2本腕バンディット問題の超高速な解決を実現。光の高速性というメリットを生かし、レーザーカオスを超高速な強化学習に応用できることを世界に先駆けて実証したとする。

 具体的には、半導体レーザーから生成したレーザーカオス光を高速にサンプリングし、「閾値」との大小判定のみで意思決定を行なう。ここでは閾値を「過去の戦歴」に基づいて上下させることが重要で、そこに「綱引き原理」と呼ぶ独自の方式を応用した。

 計測した信号レベルが「閾値より大きい」ときにはスロットマシン1を選択するという意思決定をし、「小さい」ときにはスロットマシン2を選択するという意思決定が行なわれるが、閾値が十分大きいときは、計測される信号レベルは閾値より小さくなる場合が多くなり、「スロットマシン2」を選択するケースがほとんどとなる。

 ところが、カオスの乱雑さのため、時として計測する信号レベルが閾値よりも大きくなることがあり、逆の「スロットマシン1」を選択することも生じる。

 そういったカオスから生まれる特長が、当たり台を速やかに発見することに生かされた結果、適応速度1GHz(情報が入力されてから出力されるまでの時間が1ns)を実現する、超高速フォトニクスを応用した超高速な強化学習が実証されたという。また、仮想的に生成した高速な擬似乱数(カラーノイズ)に比べても優れた性能を示すことも確認されたとする。

 NICTでは、レーザーカオスを用いることで、従来技術では不可能な高速性や、安定性、集積性に優れたシステムの実現が可能であり、高速・低レイテンシの実現が強く期待されるシステムのアービトレーションへの応用や、超高速取引での意思決定としてフィンテック分野などへの展開を検討している。