ニュース

NVIDIA、推論におけるコンテキスト処理に特化したGPU「Rubin CPX」

Rubin CPX

 米NVIDIAは9月9日(現地時間)、AIの推論フェーズにおけるコンテキスト処理に特化したGPU「Rubin CPX」を発表した。

 同社は2026年のAIデータセンター向けにCPUの「Vero」とGPUの「Rubin」を発表しているが、Rubin CPXはそのコンパニオンのGPUとして、VeroおよびRubinとともに「NVIDIA Vera Rubin NVL144 CPX プラットフォーム」の中に組み込むことができ、1ラックで8ExaFLPOSのAI性能、100TBの高速メモリを集約することを目指す。

 AIにおける推論処理は、コンテキストを処理するフェーズと、生成を行なうフェーズという2つのフェーズに分けることができるが、それぞれのフェーズにおいてインフラに対する要求が異なり、コンテキスト処理フェーズ演算性能に依存し、生成フェーズはメモリ帯域幅に依存するという。

 そのため、NVIDIAではこれら2つのフェーズを分けて処理する「分離型推論」を提唱し、それぞれにおいて最適なリソースを提供することでスループット向上とレイテンシ削減、リソース利用率向上を目指そうとしている。そして今回が発表されたたのが、コンテキスト処理フェーズに特化してアクセラレーションを行なうRubin CPXとなる。

NVIDIAが提唱している分離型推論。コンテキスト処理フェーズと生成フェーズを異なるGPUで行なうことで性能向上、そしてリソースの利用効率向上を目指す

 Rubin CPXではRubin GPUアーキテクチャを継承しながら、30PFLOPSのNVFP4演算性能、128GBのGDDR7メモリ、ハードウェアのビデオデコード/エンコードサポートを実装。従来のNVIDIA GB300 NVL72と比較して、3倍のアテンションアクセラレーションを実現。これにより長いコンテキストを効率的に処理できるという。

 これにより、Rubin CPXを144基、Rubin GPUを144基、Vera CPUを36基統合したNVIDIA Vera Rubin NVL144 CPXラックでは、8ExaFLPOSのAI性能、100TBの高速メモリ、1.7PB/sのメモリ帯域を1ラックに集約できるとしている。

NVIDIA Vera Rubin NVL144 CPXラック