やじうまPC Watch

Google、Quake IIIのチーム対戦で人間を超えるAIを開発

DeepMindによる解説動画

 Google傘下の英DeepMindは3日(現地時間)、古典的FPS「Quake III Arena」において、チームメイトと協調しながら上級プレイヤーを超える勝率をもつAIを発表した。

 同社は韓国のイ・セドル9段を破った囲碁AI「Alpha Go」で知られているが、囲碁や将棋とは異なる、盤面がすべて見渡せない不確実かつ非対称なゲームで競えるAIを開発しており、競技RTSタイトル「StarCraft 2」などをテーマとした研究を通じ、現実の課題への応用につなげる狙いがある。

 FTW Agent(For The Win)と名付けられたこのAIは、各時点でのプレイ画面を入力として持つRNN(再帰的ニューラルネットワーク)と強化学習を組み合わせて実現される。RNNが出力する画像から抽出した情報と、その時点でのゲームの情報(スコア、旗の位置など)に強化学習を適用し、採用する戦略や行動を決定する。

FTW agentの構成

 FTW agentがプレイするのは、2対2のチームで争う「CTF(旗取り)」と呼ばれるモードで、チームメイトとの連携が必要不可欠。そのため、さまざまな行動を取る主体と協調し、戦略的に行動できるAIを開発するための課題として選ばれた。

 CTFは互いのチーム陣地にある旗を奪取し、自陣に持ち帰ることでチームのスコアが記録される。つまり、「自陣で旗をひたすら守って勝ち逃げ」や、「敵陣にこもり帰還を阻止しつづける」など多様な戦略が存在する。

「自陣キャンプ」、「敵陣キャンプ」、「チームメイトについていく」という3種の戦略を自律的に編み出した

 チームメイトを無視すれば、各個撃破のリスクもある。チームメイトの戦略もそうであるが、対戦相手の戦略、マップの特性、その時点でのスコアといった諸要素がチームの勝利に複雑に影響し合う。

 武器がレールガン1種であったり(通常は多種の武器を使い分ける)、ヒットボックスの関係かキャラクターが球であったりなどの簡素化がなされているものの、ストラテジー系のCOMにありがちな「チート」は使っていない。

 座標などのゲームの内部情報を利用せず、反応速度や命中率を意図的に落とすことで、人間のプレイヤーに近い条件を与えている。入力もゲームパッドをエミュレートすることで行なっている徹底ぶりだ。

 DeepMindは、40人のプレイヤーとAIで各試合ランダムにチームを編成し、複数のマップで学習を重ねることで人間プレイヤーを大きく超える勝率を達成しており、「エイム力や特定のマップに限らず、戦略で勝つ」AIを作り出したとしている。

FTWはAIのみで学習する「Self-play」に比べ、試合数を重ねるごとにより強くなっていき、ついには人間の水準を超える(縦軸はELOレートで、強さの指標のようなもの)