ニュース

未来のゲームは“プレイしながら生成”? MicrosoftのAI「WHAMM」がすごい

 米Microsoftは4日(現地時間)、ユーザーの操作に応じてインタラクティブなゲーム映像をリアルタイム生成するAI「WHAMM(World and Human Action MaskGIT Model、最後のMは発音しない)」を発表した。

 本AIは、FPSゲーム「Quake II」の約1週間分のプレイデータを用いてトレーニングされており、キーボードやマウス操作に応じて、生成されたゲーム空間内を実際に操作してプレイ可能なデモを提供する。

 Microsoftは今年2月にも、ゲーム「Bleeding Edge」の7年分のプレイデータを基にした生成AI「WHAM-1.6B」を発表していた。同AIは、300×180ドットの解像度で1秒あたり約1枚の画像を生成していたが、WHAMMではデータ収集期間を1週間に短縮しつつ、1秒あたり10枚の生成と2倍の解像度(600×360ドット)への向上を実現した。

 この進化は、プロのゲームテスターと協力して単一のレベルに焦点を当てた意図的なプレイデータの収集を行ない、品質と多様性を両立させたことによるもの。また、画像エンコーダ/デコーダのわずかな調整により、全体的な体験品質も向上。さらにViT(Vision Transformer)のパッチサイズを10から20に拡大し、広範な画像領域を1トークンで処理することで、トークン数をほぼ同等に保ったまま効率化を図った。

 加えて、リアルタイムな操作性を実現するために従来の自己回帰的生成モデルからMaskGIT方式へとモデリング戦略を変更。WHAM-1.6Bでは1トークンずつ逐次生成していたのに対し、WHAMMでは画像の全トークンを一括で生成することで大幅な処理速度向上を実現している。

従来のWHAMのアーキテクチャ
WHAMMのアーキテクチャ

 具体的には、バックボーンとなるトランスフォーマーモジュールが、直前の9枚の画像と対応するアクションのペアをコンテキストとして受け取り、画像全体のトークンに対する初期予測を生成。その予測は、別途用意された小型で高速な「改良トランスフォーマー」モジュールによって改良されて出力する。これにより、リアルタイム性がさらに高められている。

 ただ、現時点では敵キャラクターが画像上でぼやけて見えたり、敵との戦闘(ダメージ関連)が不正確といった問題がある。また、コンテキスト長が0.9秒(10fpsで9フレーム)であるため、視界から外れたオブジェクトを“忘れ”てしまうという。さらに、ヘルスといったカウントが正しくないともしている。

 WHAMMは現在Copilot上で体験できる。ただ筆者試そうとしたところ、アクセス集中のためか起動できなかった。