ニュース

AMD、生成AIでNVIDIA H100を上回る性能のGPU「Instinct MI300」

Instinct MI300シリーズのGPU「MI300X」の構造。2.5Dと3Dの高度なチップレット技術が利用されている

 AMDは「AMD Advancing AI」と題した発表会を、アメリカ合衆国カリフォルニア州サンノゼ市において12月6日(米国時間)に開催している。午前中には、CEOのリサ・スー氏など同社幹部による基調講演が行なわれ、生成AI向け新半導体製品や、AI PC向けの新しいSoCなどが発表された。

 AMDは6月にサンフランシスコで開催したイベントで「Instinct MI300」シリーズを発表したが、その際は概要のみで、正式な出荷時期やスペック、性能などに関しては説明していなかった。今回、Instinct MI300シリーズのスペックを明らかにし、生成AIの学習や推論でNVIDIA H100を上回る性能を発揮すると説明。既にOEMメーカーなどに対して出荷開始していることを明らかにした。

308Cu、7x16 Infinity Fabric、192GBのメモリを実現したMI300X

AMDのInstinctシリーズの歴史

 Instinct MI300シリーズは、Instinctブランドで提供してきたデータセンター向けGPUの最新製品となる。2020年に最初の製品「Instinct MI100」、2021年に2つのGPUダイをチップレットで1つのパッケージに封入した「Instinct MI200」を投入するなど、着実に製品ラインアップを拡充してきた。

 当初こそ、性能ではNVIDIAのデータセンター向けGPUをキャッチアップできていなかったが、第2世代のInstinct MI200では「NVIDIA A100」を上回る性能を実現するなどしてきた。

 また、NVIDIAのAIソリューションの強みはCUDAおよび、CUDAを利用した各種の開発ツールが揃っていることにあることはよく知られているが、AMDもそうした弱点を補うべく、オープンソースで提供している開発ツールの「ROCm」の拡充を続けており、2021年にROCm 5という最新版を投入、その後もマイナーバージョンアップを続けてきた。それにより、ハードウェア、ソフトウェアの両面でAIの学習/推論用の半導体ソリューションとしてNVIDIAに対抗できる環境を徐々に整えてきた。

MI300Xの概要

 今回のInstinct MI300シリーズはその集大成となるもので、GPU単体のMI300Aと、CPU+GPUの構成となっているMI300Xという2つの製品が用意されている。いずれの製品も、「CDNA 3」と呼んでいるデータセンター用GPUの第3世代のアーキテクチャを採用している。最大の特徴は、3Dおよび2.5Dのチップレット技術を活用して、複数のGPUのダイ(XCD、38 Cu)ないしはCPUのダイ(CCD)とメモリ(HBM3)を、1つのパッケージ上で混載していることだ。

 GPU単体となるMI300Xは、4つのIOD(I/O Die、キャッシュとInfinity Fabric)がパッケージ上で2.5Dのインターポーザを経由して混載されており、その上に8つのXCDが縦方向に積載されている。さらにIODとXCDの横にはHBM3のメモリチップが8つのスタックとして搭載される形になっている。

NVIDIA H100とのスループット比較

 パッケージ全体でCDNA 3のCuが308、キャッシュが256MB、HBM3メモリの容量は192GBで、メモリ帯域幅は最大5.3TB/sに達する。TDP 750WのMI300Xは、TDP 700WのNVIDIA H100と比較して、FP64およびFP32では約2.4倍となり、AIで利用するTF32、FP16、BF16、FP8、INT8などでは1.3倍のスループットを実現する。

MI300X Platform、8つのInstinct MI300Xを搭載している

 サーバーに搭載する場合には、1つのマザーボードに対して8つのOAM(オープンソースのGPUパッケージ)のMI300Xが搭載可能になっており、その場合1つのサーバー機器で最大2,432Cu、1.5TB HBM3になり、InfinityFabricを利用してスケールアップできる(この構成をAMDはMI300X Platformと呼んでいる)。また、InfiniBandやEthernetでスケールアウトすることも可能で、その場合はさらに巨大なGPUとして利用することが可能だ。

NVIDIA H100 HGXとMI300X Platformの性能比較、カーネルや推論では1.1~1.6倍、学習では同等の性能を実現

 1つのサーバー機器として見た場合、NVIDIAのH100を8つ搭載したH100 HGXとMI300X Platformを比較すると、メモリ容量は2.4倍、演算性能はFP16/BF16で10.4PFLOPSとなり、約1.3倍の性能を実現できる。大規模言語モデルで比較した場合、学習でも推論でもH100 HGXに比較して性能が倍になるとAMDは説明している。

OEMメーカー
採用しているスーパーコンピューターなど

 AMDによれば、MI300Xは既にOEMメーカーなどに出荷済みで、HPE、Dell Technologies、Lenovo、SupermicroなどのOEMメーカーなどから今後提供される計画。また、11月のIgniteでMicrosoft Azure経由でインスタンスとして提供される計画であることも既に明らかにされており、今後CSP(クラウド・サービス・プロバイダー)経由でも提供される予定となっている。

228Cuと24CPU、128GBメモリというAPUになるMI300A

MI300A

 CPUとGPUが1チップに統合されているAPUとなるMI300Aも、基本的な構造はMI300Xと同じように、2.5Dと3Dのチップレットを活用したユニークな構造になっている。

CPUとGPUが同じメモリ空間を共有するシェーアドメモリになっていることが大きな特徴
ダイ構成
スループット

 4つのIODと8スタックのHBM3という構成はMI300Xと同じだが、XCDは6つになっており、そのXCD 2つの分のエリアに、Zen 4コアのCCD(8コア)がIODの上に3D積層される形になっている。このため、パッケージ全体でGPUは228 Cu、CPUは24コア、4つのIOD、8スタックのHBM3は128GBで5.3TB/sの帯域幅となっている。

 またMI300Xでは、7x16 Infinity Fabricと、ほとんどがInfinity Fabricに割り当てられており、スケールアップ時の性能を重視した構成になっているが、MI300Aでは4x16 Infinity Fabricと4x16 PCI Express Gen 5というI/Oになっており、汎用サーバーとして利用することにも配慮されている。

性能

 ソフトウェアから見ると、MI300Aの最大の特徴は、ユニファイドメモリとなっており、CPUとGPUが同じメモリ空間を共有できること。メインメモリからGPUのメモリへデータをコピーするオーバーヘッドがなくなり、システム全体の演算効率が大きく向上する。それにより、NVIDIAのH100と比較しても性能で上回り、まだ世の中には出回っていない「NVIDIA GH200」との比較でも2倍の電力効率を実現する見込みだとAMDは説明する。

LLNLのEl Capitanに採用される
OEMメーカー

 このMI300AはLLNL(ローレンス・リバモア国立研究所)に設置されるスーパーコンピューター「El Capitan」に搭載され2EFLOPSの性能を実現するほか、HPE、EVIDEN、GIGABYTE、SupermicroなどのOEMメーカーから発売される予定。既にOEMメーカーに対しては出荷が開始されている。

最適化が進むことで性能が向上するROCm 6、生成AIアプリの開発環境も強化

ROCm 6が導入される

 また、NVIDIAでいうところのCUDAやそのツールキットに相当する「ROCm」の最新版となる「ROCm 6 open software platform」(以下ROCm 6)を発表した。

AMDのハードウェアとAIアプリケーションをつなぐ役割を果たしているROCm

 ROCm 6はこれまでInstinct向けに提供してきたAI開発キットで、オープンソースの形で開発が進められてきた。ROCm 6では従来のディープラーニング/マシンラーニングベースのAI開発はもちろんこと、大規模言語モデルなど、いわゆる生成AIと呼ばれる大規模なAIファウンデーションモデルにも対応し、生成AI対応がうたわれるようになったことが強化ポイントとなる。

ソフトウェア的な最適化だけで大きな性能向上を実現
最新ハードウェアと組み合わせるとさらに性能が向上する
Llama2を利用した推論性能

 具体的には、ランタイムやカーネルなどの最適化を進めることで、vLLMの推論で2.6倍、HIP Graphで1.4倍、Flash Attentionで1.3倍という、ソフトウェアレベルの改善だけで性能向上を実現している。

 このため、今回発表されたMI300シリーズでも、従来モデルのMI200シリーズでも、開発者がROCm 6にアップグレードして新しいプログラムを構築するだけで性能向上が実現される。それにより、従来のROCm 5+MI250と、ROCm 6+MI300XにアップグレードすするとLlama 2 70Bモデルの推論が8倍、Llama 2 13Bモデルが1.2倍レイテンシを改善できる。

Hugging Faceとの提携強化

 また、6月のイベントで発表されたHugging Faceとの提携も進展しており、6万2,000を超えるモデルがROCmに最適化されており、Instinctシリーズでより効率よく実行できるようになっていることが明らかにされた。