ニュース

GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応

 Googleは9日、生成AI「Gemini 1.5 Pro」のパブリックプレビューを、Google AI Studio経由で180カ国以上向けに提供開始した。APIキーを取得すれば利用できる。

 Gemini 1.5 Proでは入力モダリティを拡張しており、音声が理解できるようになった。Google AI Studioにビデオをアップロードすると、画像と音声の両方を推論できるようになる。これに関するAPIサポートはまもなく追加される。

 また、システム命令を利用してモデルの応答をガイドする機能、JSONオブジェクトのみを出力するようにモデルを指定できるJSONモード、関数呼び出しの改善といったGemini APIの機能向上が図られた。

 さらに、Gemini APIにおいて次世代のテキスト埋込モデルである「text-embedding-004」に対応し、既存モデルより高い検索性能を達成できたという。

音声入力に対応
システム命令の対応
text-embedding-004はMTEBベンチマークでより優れた結果を示した