ニュース

Google AI「Gemini」、1.0からたった2カ月で1.5へ進化

 Googleは15日(米国時間)、同社の生成AI「Gemini」の次期バージョンとなる「Gemini 1.5」を発表した。開発者や企業向けには、Google AI StudioおよびVertex AIを通じて「Gemini 1.5 Pro」の限定プレビューが同日よりすでに開始しており、準備が整い次第広くリリースする予定だという。同社は2023年12月に新AIとしてGeminiを発表しており、およそ2カ月でそれに続くバージョン1.5が登場したかたちになる。

 Gemini 1.5では、中型サイズのマルチモーダルモデルとなるGemini 1.5 Proから投入。新たにMoE(Mixture-of-Experts)アーキテクチャなどを採用することで、品質を維持しつつより効率的な学習とサービスが可能になったとしており、現行の最上位となるGemini 1.0 Ultraと同等の性能を発揮できると説明している。

 従来のTransformerが1つの大きなニューラルネットワークとして機能するのに対し、MoEでは与えられた入力の種類に応じて、そのニューラルネットワークの中でも最も入力に関連性の高い経路を選択するように学習を行なうため、効率が大幅に向上したとしている。

アポロ11号の月面着陸に関する記録(402ページ)を使ったデモの様子
バスター・キートンの無声映画(44分間)を使ったデモの様子

 モデルのコンテキストウィンドウが大きくなっている点も特徴で、Gemini 1.0がリリース時点で3万2,000トークンだったのに対し、Gemini 1.5 Proでは標準で12万8,000トークンまで引き上がった。さらに現時点で最大100万トークンまで処理が行なえるとしており、これは動画なら1時間、音声なら11時間、コードベースなら3万行以上、文章なら70万単語以上を一度に処理できる大きさに相当する。

 なお、100万トークンのコンテキストウィンドウはレイテンシの改善や計算要件の削減に向けて最適化を進めているという。また、研究では1,000万トークンまでテストに成功しているという。

Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo
Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo
Problem solving across 100,633 lines of code | Gemini 1.5 Pro Demo