ニュース

動画や音声が入力できる動画生成AIモデル「Gemini Omni」公開

 Googleは5月20日、動画生成AIモデル「Gemini Omni」を公開した。第1弾である「Gemini Omni Flash」は本日よりGoogle AI Plus/Pro/Ultraユーザーを対象に、GeminiアプリおよびGoogle Flowを通じて利用できる。また今週中には、YouTubeショートおよびYouTube Createアプリのユーザーにも順次無料提供を始めるとしている。

 Gemini Omniは、自然言語のプロンプトによって動画の生成と編集が行なえるAIモデル。文脈に応じた一貫性の保持や論理的な推論能力を強化しており、被写体の置き換えやアングルの変更、エフェクトの追加、自分で撮影した動画の"続き"の生成などを指示できる。

 素材として動画/静止画/音声/テキストを入力できるマルチモーダル統合モデルであり、静止画の被写体が持つ質感を動画の被写体に反映したり、音声ファイルのリズムに合わせた動きを生成したりできる。矢印などを使った具体的な動きのディレクションも可能。

 動画の内容は必要に応じて現実の歴史や自然科学、文化的背景を文脈として持たせられる。また、より正確な物理法則を取り入れており、現実の重力や運動エネルギー、流体力学などに大きく矛盾しないリアリティのある表現が可能としている。

 ユーザー自身のAI動画を生成したい場合に向けて、自身の見た目や声を使った「アバター機能」も提供を始めている。5月20日の時点ではユーザー自身の声を使った動画の生成が可能であり、動画内の音声や会話内容の編集に関しては、悪用を防ぐ目的でテストと評価を重ねて改善を図っている段階だという。

 Gemini Omniで生成したすべての動画には電子透かしのSynthIDが埋め込まれており、動画がGemini Omniで生成されたものかどうかを確認できる。

 今後は動画だけでなく、静止画や音声などの出力形式にも対応する見込み。

静止画の質感を動画に反映している
矢印で被写体の動きを指示しているところ
「タンパク質の折りたたみ」をストップモーションのクレイアニメで表現するよう指示したところ