やじうまPC Watch

GoogleのDQNさんがTASさんを超える日も近い?

~すでに人間レベルのゲームプレイが可能になったGoogleのAI

 AI(人工知能)の開発に取り組むGoogle DeepMindの目標は、人間レベルの問題解決を行なえるAIの開発を行なうことだ。先日大きく報道されたように、DeepMindのAIは、これまではコンピュータには困難だとされていた囲碁においても、世界トップクラスの人間のプレイヤーを下すまでに至っている。そのDeepMindは18日付け(米国時間)で、これまでの実績をとりまとめたブログを公開している。

 DeepMindではまず、一切の前知識なしに自ら、試行錯誤によって視覚など生の入力から直接知識を構築、学習し、より高い目標を達成する強化学習と、ニューラルネットワークによる深層学習を組み合わせた。

 この手法には、学習が不安定という問題があったため、AIの経験を全て蓄積し、ランダムなサンプリングを行なって、その経験を再体験し、多様かつ相関性のないトレーニングデータを提供するDeep Q-Networks(DQN)アルゴリズムを開発した。

 DeepMindは、このDQNに1970年代に発売されたゲーム機「Atari 2600」のゲームをプレイさせた。DQNは、各タイムステップにおいて、画面の全ピクセル、ゲームスコア(報奨信号に相当)を観察しながら、ジョイスティックを動かす方向を決定する。これによって、50ゲームの半数近くにおいて、人間レベルのスコアを達成できるようになった。その後、さらなるアルゴリズムの改善により、性能を300%向上させ、ほとんど全てのゲームで人間と対等レベルになった。

 またDeepMindは、CPUのマルチスレッディングを利用した非同期型強化学習手法も導入。これにより、DQNの学習時間を数分の1に短縮した。その結果、3Dダンジョンタイプのゲームでも人間レベルの能力を達成した。

 以下の動画でその様子を確認できる。ブロック崩しゲームでは、試行回数を積むに連れ上達するとともに、600回を超えたところで、天井とブロックの隙間に球を打ち込むと楽に高得点が得られるということも見出していることが確認できる。

 YouTubeやニコニコ動画では、TAS(Tool Assited Speedrun)と呼ばれるツールを使い、ゲームをスローのコマ送りで操作しつつ、失敗したら巻き戻すことを繰り返すことで制作された超人的なプレイ動画に人気があるが、DQNがTAS以上の驚異のプレイを実現する日もそう遠くなさそうだ。