ニュース

Googleの新AI「Gemini」、もはや人間では?凄さが分かる短編動画

 Googleは12月6日(現地時間)、マルチモーダル処理性能を向上させた新AI「Gemini」を発表した。テキストだけでなく、音声や画像、動画、コードなどのさまざまな情報から総合的に判断して答えを下すことが可能になっているのが特徴だが、文字の説明だけではいまいちピンと凄さが分からず、「ふーん」程度に思われるかもしれない。

 Googleはこのほど、そのGeminiの凄さがよく分かる動画をYouTubeで公開した。約6分程度の動画だが、Geminiとの会話(やりとり)は音声で行なわれ、Geminiに対してカメラで手書きにの絵や物を見せたり、動画を見せたりし、それに対してGeminiが受け答えをしているシーンだ。

 動画を観れば分かるが、もはや「AIではなく、裏で人間が見て即座に判断しているだけじゃないの?」というレベルで、リアルタイムにユーザーが何を伝えようとしているのか判断し、ごく自然な会話ができていることが分かる。ユーザーが何か指示(プロンプト)を出したら、しばらく考え、答える今のAIとは雲泥の差だ(もちろんこれが最終的に個々のユーザーすべてがこの速度で実行できるかどうか分からないが)。

 動画は、曲線を描くだけで「ギザギザなところがない曲線」だと判断するところから始まり、それに筆を加えて絵にしていったところで、アヒルだと認識し始める。それからアヒルのおもちゃの素材を当てたり、地図を使ったクイズを出してもらったり、紙くずをコップに隠してシャッフルして、どのコップに入っているのか当ててもらったりといったゲームもこなしている。

 さらに、物を見せて共通点を挙げてもらったり、色付きの毛糸を見せて、それで作れるぬいぐるみを考えてもらったり(絵付き)、人間が描いた絵や素人でも分かるようなラフなデザインを見て、即座にどちらが良いか判断させたり、絵から音楽を想像させたり、点と線を結んだ図だけ見せて、どの星座か当ててもらうといったことまで、難なく答えている。

 ChatGPTやStable Diffusionといった生成AIで、大いに盛り上がった2023年だが、2024年はAIのさらなる進化に期待が持てそうだ。

手書きの絵を見せると「アヒル」と判断してもらえる
地図を見せて、特徴から国を当てるクイズを出してもらうところ。サッカーと賞杯、スタジアムの絵文字で問題を提起することも可能。答えはもちろんブラジルで、そこを指差すと正解をもらえる
「アヒルはどっちに行くべき?」という質問に対し、アヒルは友達のところに行くべきだと判断
「どっちのほうの車が速そうか?」という質問で、「空気抵抗が少ない右」と選ぶGemini
2色の毛糸で作れるぬいぐるみを提案
いくつかの楽器の絵から1980年代のヘアメタルの音楽をイメージさせ、再生させることも
「動画は何のものまねをしているのか?」に対し、マトリックスで有名な弾よけシーンのマネだと即座に理解
絵から即座に双子座だと判断できる