ニュース

DRAMやSSDをGPUメモリとして拡張する「CXL-Opt」技術。レイテンシが世界初の2桁nsに

今回開発したCXL-Opt技術のコントローラ

 Panmnesiaは6月25日(現地時間)、肥大化するAIモデルに対処するため、世界で初めて「2桁ナノ秒(ns)」のレイテンシを実現できるCXL対応のコントローラIP「CXL-Opt」を発表した。

 LLM(大規模言語モデル)を代表とする大規模なディープラーニングにおいて、10億パラメータで16GB~24GBのビデオメモリを消費するのが当たり前となってきおり、100億パラメータモデルでは、現在のハイエンドGPUのビデオメモリ(一般的には80GBが上限)を優に超える。

 メモリ容量の制限を打破するため、これまでNVIDIAおよびAMDでは共有仮想メモリ(UVM)という仕組みを用意し、ランタイムソフトウェアを介しCPUとGPUが共有するメモリの仮想アドレス空間にアクセスしていた。しかし、GPU側のメモリにないデータにアクセスが発生すると、キャッシュミスとページフォルトが発生。ホストランタイムがページフォルトを処理する際にかなりのレイテンシが生じ、性能のボトルネックとなっていた。

 この問題に対処するため、PanmnesiaはPCI Expressの物理層を利用したCXL(Compute Express Link)を介して、汎用的なDRAMやNVMe SSDをエンドポイントとしてGPUメモリを拡張するソリューションを提唱した。

Panmnesiaが提唱したCXLでGPUのメモリを拡張するソリューション

 まず、主要なCXLサブプロトコルをサポートする基本的なハードウェアレイヤーを開発してコントローラに統合。また、メモリとSSDコントローラの機能をも組み合わせることでホスト管理デバイスメモリ(HDM)として認識できるようにした。

 一方、GPUのキャッシュシステムにもEPとして認識される必要性に対処するため、複数のルートポートを備えたホストブリッジを特徴とするCXLルートコンプレックスを開発。片方はシステムバスに接続し、もう片方は複数のCXLルートポートに接続、各ルートポートの物理アドレスを管理するHDMデコーダを介して、先ほど開発したコントローラに接続するようにした。

GPU側にCXLルートコンプレックスを統合し、PCI Expressバスを介してCXLコントローラを接続する
拡張カードレベルのプロトタイプ

 今回開発したCXL-OptをカスタムASICで実装したGPUで評価したところ、世界で初めて2桁ns単位のラウンドトリップレイテンシを実現。これにより、従来のUVMと比較して実行時間が1.94倍速くなった。また、読み書きのレイテンシを隠蔽するためのソリューションを用いることで、実行時間をさらに1.66倍高速化できた。

 加えて、GPUカーネル実行中のIPC(クロックあたりの命令実行数)を比較したところ、UVMと比較して3.22倍、MetaとSamsungが開発したCXL-Protoと比較して1.65倍の高速化を示したとしている。

従来の技術と比較して大幅な性能向上を実現した