ニュース

GoogleのAI、ついにプロンプトだけで"世界"を生成可能に

Genie 3

 Google DeepMindは8月5日、テキストプロンプトでインタラクティブな世界をリアルタイム生成できるAIモデル「Genie 3」を発表した。

 Genie 3は、簡単なテキストプロンプトを与えると、それに沿った世界環境を生成できるAIモデル。ユーザーによる探索が可能な動的世界を720p解像度/24fpsにてリアルタイム生成する。従来のGenie 2と比べ、一貫性とリアリティが向上した。同社の説明によれば、リアルタイムインタラクションが可能な世界モデルは史上初だとしている。

 具体的には、世界の物理的性質のモデリングや自然のシミュレーション、アニメーションモデリング、時間軸を変更可能な土地の探索といった機能を実現。火山地帯をロボットで探索したり、日本庭園を訪ねたり、ファンタジーの世界に飛び込んだりできるという。

 また、世界の中で起きる出来事やアクションは、ナビゲーション入力だけでなくテキストプロンプトでの指示が可能。Promptable world eventsと呼ばれる機能で、天候の変更、新しいオブジェクトやキャラクターの追加といった操作をテキストプロンプトでも行なえる。

 もう1つの特徴として、生成した環境の一貫性を数分間保てる機能が挙げられる。たとえばユーザーが生成世界内の壁をペンキで塗ったとき、その壁が一度視界から外れても、塗られたペンキが維持されるといったもの。これにより、世界への没入感を高められるという。

ロンドンの川沿いでニワトリの着ぐるみを着た人をテキストプロンプトで追加
生成した環境は一定時間一貫性が維持される

 なお、現時点では行動できる空間が限られるほか、現実世界の土地を正確に再現したり、(明示的に指示した場合を除いて)テキストをレンダリングしたりできないなど、動作に制限がある。

Genie 3: リアルタイムで移動できるダイナミックな世界を創造する