ニュース

Google、高性能な新AI「Gemini」。Pixel 8 Proにも搭載へ

Googleが発表したGeminiのロゴ(写真提供:Google)

 Googleは12月6日(米国時間、日本時間12月7日)、新規開発した高性能AIファウンデーションモデル「Gemini」を発表した。各種のベンチマークにおいて、テキストの処理でGPT-4と、マルチモーダルな処理でGPT-4Vと比較して、多くの項目で上回っているという。

 生成AIエンジン「Bard」もGeminiとの組み合わせで大幅に強化され、機能が向上する(ただし現時点では英語版のみ)。またGoogle Pixel 8 Proにエッジデバイス用モデル「Gemini Nano」が導入され、レコーダーアプリの要約機能などに活用される。

マルチモーダル処理が強化されたGemini、GPT-4/4Vを上回る性能

Gemini(写真提供:Google)

 今回Googleが発表したAIファウンデーションモデル「Gemini」は、ChatGPTのような典型的な生成AIアプリケーションが、AIの構築に利用するファウンデーションモデル(ChatGPTの場合はGPT-3やGPT-4、GPT-4Vなど)のGoogle版になる。Googleはこのファウンデーションモデル刷新で、生成AIソリューションの基盤を強化していく。

 Google CEO スンダー・ピチャイ氏は「Gemini は、Google Researchのメンバーを含むGoogle全体での大規模な共同研究の成果だ。マルチモーダル(人間のように、複数のことを考慮に入れながら高度な判断を行なうこと)としてゼロから構築されたGeminiは、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる。

 Geminiは、これまででもっとも柔軟なモデルでもあり、データセンターからモバイルデバイスまであらゆる場所で効率的に動作する。最先端の機能により、開発者や企業がAIを構築および拡張する方法が大幅に強化される」と述べ、Geminiが生成AIの正確性や賢さなどを一段上げることが可能なモデルであると強調した。

テキストでのGPT-4との性能比較、多くの項目でGPT-4を上回っている(出典:Googleプレスリリース)

 テキストベースの処理で比較した場合、Gemini UltraはGPT-4と比較して多くの処理でより高いスコアを実現し、高性能だという。たとえばMMMU(大規模マルチタスク言語理解)ベンチマークでは90%と、人間の専門家を上回るようなスコアを記録したという(GPT-4は86.4%)。

マルチモーダル時のGPT-4Vとの性能比較、こちらはすべての項目でGPT-4を上回っている(出典:Googleプレスリリース)

 またマルチモーダル処理でも、MMMUベンチマークで59.4%という業界最高水準のスコアをマークしたという(GPT-4Vでは56.8%)。

 さらに、Geminiはテキスト、画像、音声などを同時に認識して理解できるように学習されているため、ニュアンスを含んだ情報を理解し、これまでのLLMベースのチャットボットに比べてより複雑なトピックや質問に答えることが可能になる。Googleによれば、数学や物理学の推論説明に優れており、たとえばチャットボットが家庭教師になるといったアプリケーションも構築できるようになるという。

エッジデバイス向けの「Gemini Nano」はPixel 8 Proに最初に導入

3つのGemini(写真提供:Google)

 Geminiの最初のバージョンは「Gemini 1.0」となり、高性能で最大のモデルとなる「Gemini Ultra」、中規模で多くのユーザーに適合する「Gemini Pro」、そしてスマートフォンのようなNPUを備えているデバイス上で利用するための「Gemini Nano」の3つのサイズが用意される。

Gemini Nanoより実現されるレコーダーの要約機能(出典:Googleプレスリリース)

 このうちGemini Nanoは、同社が提供するスマートフォン「Pixel 8 Pro」に最初に実装される計画だ。デバイス上のNPUを利用してローカルでのAI文字起こし機能を実現している「レコーダ-」の機能拡張などに使われる予定で、要約機能の実現が可能となる。

 このほかにもGBoardでのスマートリプライ機能(メッセージングアプリなどで迅速に返信ができるように返信を示唆してくれる機能)などにも、Gemini Nanoが利用される。

 Geminiは現在評価段階にあり、今後数カ月の間に同社の生成AI「Bard」にも適用され、マルチモーダルデータへの対応など大規模な機能拡張が行なわれる計画だ(ただし当初は英語版のみ)。それ以外のGoogleのサービス(検索、広告、Chrome、Duet AIなど)にも順次Geminiが展開される予定。

 また、12月13日からは、開発者や企業がGoogleのAI開発環境からAPI経由でGemini Proにアクセスすることが可能になるほか、Gemini Ultraのベーターテストも開始され、来年の初めにはより大規模に開発者や企業に提供される計画だ。

 なお、Gemini Nanoが利用されるわけではないが、Pixel 8 Proのカメラ機能の拡張として「Cutting-edge video」(ビデオをクラウドに上げて色、明かり、手ぶれ補正などを自動で行なう機能)、「Record amazing timelapse videos after dark」(暗所でもタイムラプスを安定して作成する機能)、「See everyone in better light」(Google Photoでのポートレートでの光源調整機能)、「Photo Unblurのアップデート」(犬猫などの動く被写体の自動シャープネス機能の機能強化)などの機能が追加される。

 ほかにも、Pixel Foldで撮影している相手に外側のディスプレイでプレビューを見せることに使う機能、Pixel FoldおよびPixel 6以降のPixelをPCのWebカメラとして利用できる機能、スワイプするだけで、カメラで撮影した文書を綺麗にする機能などが追加される。

Geminiの開発を促進するため新しいAIアクセラレータとして「TPU v5p」が導入

TPU v5pのポッド(写真提供:Google)

 このほか、Google Cloudを経由して提供しているAIアクセラレータの「TPU」の最新製品となる「TPU v5p」を発表した。

 Googleは今年(2023年)8月にサンフランシスコで開催したGoogle Cloud Next '23において「TPU v5e」という第5世代のTPUを発表していた。しかし、1つのポッド(従来で言うところの1クラスター)あたりのチップ数やBF16時の性能がTPU v4よりも減るなどしており、どちらかというと電力効率に特化したAIアクセラレータとなっていた。

TPU v5pの性能(出典:Googleプレスリリース)

 それに対して今回発表されたTPU v5pは、性能に特化したTPUとなる。従来製品のTPU v4と比べて、ポッドあたりのチップ数が2倍となる8,960基、チップあたりのメモリ(HBM)は約3倍の95GB、メモリ帯域も約2.25倍となる2,765GB/sと強化されている。これにより、より高いAI学習演算のニーズに応えることが可能だとGoogleは説明している。

 新たに、INT8を利用した学習にも対応しており、学習の時間をさらに短くすることができる。BF16でのTPU v4の学習(GPT3-175Bを仕様)を1とすると、BF16を利用したTPU v5pは1.9倍、INT8を利用したTPU v5pは2.8倍高速に処理することが可能になり、学習にかかる時間を節約することができる。

 現時点ではTPU v5pが使えるインスタンスなどは明らかにされていないが、Google自身がGoogle CloudでGeminiのモデルを利用してAI学習を行なう時などにも、TPU v5pは利用される計画だ。