ニュース

名前からして魔物感。最強マルチモーダルAI「Llama 4 Behemoth」登場

 Metaは5日(米国時間)、テキストや画像を同時に理解できる最新のマルチモーダル対応生成AI群「Llama 4」シリーズを発表した。

 Llama 4は、事前トレーニングでMixture of Experts(MoE)アーキテクチャを使用する最初のモデルで、単一のトークンが全パラメータの一部のみをアクティブ化することにより効率を高めている。また、MetaCLIPに基づいたビジョンエンコーダの改良、MetaPと呼ばれる新しいトレーニング手法、FP8精度を用いたトレーニングで効率化を図った。さらに、特殊データセットを使って中間トレーニングをし、長文処理能力や新スキルを獲得させた。また、事後学習についても最適化を施している。

 最上位は、2,880億(288B)のアクティブパラメータ、16のエキスパート、そして合計2兆(2T)パラメータにおよぶ大規模な生成AI「Llama 4 Behemoth」。世界で最も強力かつ最もスマートなLLMだとしており、いくつかのSTEMベンチマークで「GPT-4.5」、「Claude Sonnet 3.7」、「Gemini 2.0」よりも優れているという。現時点ではまだプレビュー段階となっている。

 中位が「Llama 4 Marverick」で、こちらは170億(17B)のアクティブパラメータ、128のエキスパート、合計4,000億(400B)のパラメータを持つ。多くのベンチマークで「GPT-4o」や「Gemini 2.0 Flash」より勝り、推論とコーディングではDeepSeek v3に匹敵する性能を、半分以下のアクティブパラメータで達成。100万個(1M)のコンテキストウィンドウをサポートする。

 下位は「Llama 4 Scout」で、170億(17B)のアクティブパラメータ、16のエキスパート、合計1,090億(109B)のパラメータを持つ。単一のNVIDIA H100 GPUに収まるサイズである一方で、以前のLlamaより高性能を実現。こちらは業界最先端となる1,000万(10M)のコンテキストウィンドウを提供し、「Gemma 3」や「Gemini 2.0 Flash-Lite」、「Mistral 3.1」よりも高性能だとしている。

 MarverickおよびScoutはいずれもBehemothからの抽出モデルとなっており、オープンウェイトとしてllama.comおよびHugging Faceを介して提供開始している。

MoEアーキテクチャを採用