ニュース

Google、画像からプレイ可能な3Dワールドを生成するAI「Genie 2」

 Google DeepMindは12月4日(米国時間)、テキスト生成された画像から、実際にプレイヤーがその世界に入ってプレイできる3Dワールドが生成できるAI「Genie 2」を発表した。

 Genie 2は大規模なビデオデータセットを利用してトレーニングされた、自己回帰潜在拡散モデルとなっている。画像を1枚入力すると、さまざまなリッチな3Dワールドを生成し、ジャンプや水泳といったプレイヤーのアクションの結果を含む仮想世界をシミュレートできる。オブジェクト間の相互左右、複雑なキャラクターアニメーション、物理学、ほかのエージェントモデルの動作をモデル化して予測する機能などが実装されている。

 たとえば、キーボードのW/A/S/Dを利用したキャラクターの自由な移動はもちろんだが、ワールド内においてたとえば風船の破裂、ドアを開ける、爆発物を爆発させるといったオブジェクトの相互作用もモデル化され、水や煙、重力、ライティング、反射などの効果もモデル化される。

 視界に入らなくなった世界の部分は「記憶」されており、再び視界に入った時に正確にレンダリングするようになっている。生成されたものは最大1分間一貫したワールドを維持できる。また、一人称視点や第三人称視点、見下ろし視点のワールドも生成できるという。

 3Dモデルには、画像生成AIである「Imagen 3」によって生成された画像を用いることができ、紙飛行機やパラシュート、ドラゴンや鳥などもモデル化。それらもAIによって自動的に正しくアニメーション化されるという。

 加えて、以前に発表された、3Dワールド内でユーザーのプロンプトに応じて代わりの操作を行なうAIエージェント「SIMA」を利用し、Genie 2で生成されたワールド内のアバターやキャラクターを操作できる。