ニュース
NVIDIA、推論5倍速で無償の550Bエージェント向けLLM「Nemotron 3 Ultra」
2026年6月5日 10:59
米NVIDIAは6月4日(現地時間)、複雑なタスクを処理する自律型エージェント向けの推論モデル「NVIDIA Nemotron 3 Ultra」(Nemotron 3 Ultra 550B-A55B)を公開した。モデルの重みや学習データセットなどは、Linux Foundationが用意したオープンなAIモデル向けライセンスである「OpenMDW-1.1」の下で無償提供され、Hugging Faceなどからダウンロードできる。
Nemotron 3 Ultraは、5,500億(550B)の総パラメータ、550億のアクティブパラメータを持つMoEアーキテクチャを採用した大規模言語モデル。計画を立ててツールを呼び出し、サブエージェントを起動、情報を受け取り、履歴、出力、推論のステップを継続的にモデルにフィードバックするなど、トークン数が急速に増加するエージェントオーケストレーションに向くという。
同モデルは、NVIDIAのNeMo RLとGymオープンライブラリを使用して世界最大規模の長期実行型タスク解決ツール使用データセット群を用いて学習。また、長いコンテキストワークロードにおけるシーケンス効率を向上させ、大きなコンテキストウィンドウで特定の事実を取得するために正確なリコールを維持できるMambaトランスフォーマー、スループットを最大5倍向上させるNVFP4チェックポイント、より効率的なエキスパートルーティングをサポートするLatentMoE、生成時間を短縮するマルチトークン予測(MTP)などを活用している。
さらに、学習段階で、10以上の専門領域に特化した教師モデルから効率的に学習する「マルチティーチャー・オンポリシー蒸留(MOPD)」と呼ばれる手法を導入し、推論能力を高めている。
その結果、同クラスのほかのオープンモデルと比較して5倍高いスループットを達成でき、総トークン数およびターンあたりのトークン数の削減により、タスク完了までのコストを最大30%削減できたという。
このほか同社は、AIの出力を監視管理する40億パラメータのガードレールモデル「Nemotron 3.5 Content Safety」や、多言語に対応し、100ms未満の超低遅延で処理できる音声認識モデル「Nemotron 3.5 ASR」もあわせて発表した。























