笠原一輝のユビキタス情報局

AMDのInstinct MI300が「NVIDIA DGXキラー」になる可能性

AMD リサ・スーCEOが手に持つのが、GPUダイが8つと192GB HBM3から構成されているInstinct MI300X

 AMDは、6月13日(米国時間)に米国カリフォルニア州サンフランシスコ市内の会場において「Data Center and AI Technology Premiere」という名称のイベントを開催し、基調講演の中でデータセンター向けソリューションを紹介した。

 その中で新しいデータセンター向けのGPU/APUとして「AMD Instinct MI300 シリーズ・アクセラレータ」(以下Instinct MI300 シリーズ)の投入をアナウンス。GPUの「AMD Instinct MI300X」(以下MI300X)、APUの「AMD Instinct MI300A」(以下MI300A)を発表した。それぞれ3Dチップレット技術を利用して、GPUのみ、ないしはCPUとGPUの2種類を混合して積載し、GPUとAPUを構成するというユニークなアーキテクチャを採用している。

 そのInstinct 300シリーズを8つ搭載したAI演算用のプラットフォームとして「AMD Instinct Platform」を同時に発表し、NVIDIAが同社のGPUを8つ搭載して提供している「DGX H100」のようなAI学習用コンピュータの対抗製品としていく意向だ。

注目はInstinct MI300シリーズ、それを8つにスケールアップした「AMD Instinct Platform」が発表される

AMD Instinct Platfotm

 AMDがデータセンター向けAI GPU市場で、本気でNVIDIAを追撃に来た……「Data Center and AI Technology Premiere」の基調講演を視聴した後の筆者の率直な感想はこれだった。

 これまでAMDは、データセンター向けのGPUとしてInstinctシリーズをリリースはしていたが、GPUを利用したAI学習の市場でNVIDIAに本気で対抗しているとは思えなかったのが実情だった。

 確かに、従来の「Instinct MI200」シリーズも、GPUとしてはおそらく初めて、チップレットの技術を採用して、2つのGPUダイを1つのパッケージ上で統合しており、従来製品よりも高い性能を発揮するようになっていた。

Instinct MI300X、ヒートシンク付きの状態、一番下の板がOAMのモジュール
Instinct MI300Aのヒートスプレッダ付きの状態

 このパッケージも業界標準として規定されたOAM(OCP Accelerator Module)を採用しており、それを利用してスケールアップすることが可能になっていた。しかし、MI200シリーズを採用して8つのGPUにスケールアップできる機器などは、これまでのところ広く手に入る形では登場していなかった。

 今回の基調講演の最後にAMD 会長 兼 CEO リサ・スー氏が明らかにしたのが「AMD Instinct Platform」と呼ばれる、最大で8つのInstinct MI300シリーズを搭載できるプラットフォームだ。これは言ってみれば、OEMメーカーやODMメーカーに対して提供する「レファレンスデザイン」のようなものであり、今後その仕様書などをOEMメーカーやODMメーカーに公開することで、8つのInstinct MI300シリーズを搭載したGPUサーバーを簡単に構築することを可能にする。

 Instinct Platformでは、8つのInstinct MI300が、AMDのチップ間接続技術Infinity Fabricで相互に接続される(必要な数のInfinity FabricはGPUダイそれぞれに実装されているInfinity Fabricで対応する)。NVIDIAのDGXシリーズのようにNVLink Switchの外部チップを必要としないので、比較的低コストで8つのGPUまでスケールアップできる(9つ以上の構成にする場合には、InfiniBandやEthernetなどでスケールアウトする)。

NVIDIAのDGX H100、Instinct Platformのターゲットとなる(COMPUTEX 2023で筆者撮影)

 こうしたレファレンスデザインが目指すところは明白で、NVIDIAが提供しているDGX H100やDGX A100といった「AIスーパーコンピュータ」への対抗だ。NVIDIAは、H100 GPU(Hopper)やA100 GPU(Ampere)をPCI Expressカードとして提供しているが、同時にSXMと呼ばれる、NVIDIA独自規格のモジュールの形状で提供しているおり(そのオープン規格版がOAMで、AMDとIntelが採用)、それを8つ搭載したのがDGX H100やDGX A100などのDGXシリーズになる。

 AMDのInstinct Platformは、そうしたDGXシリーズに対抗する製品をAMD自身がデザインし、OEM/ODMメーカーに対して提供する形となり、OEM/ODMメーカーにとっては顧客に対して、NVIDIA製品の価格に納得していない顧客に対して新しい選択肢を提案できるし、NVIDIAに対して「NVIDIAのGPU高いのでは?」として交渉する“武器”にもなる。

APUのInstinct MI300Aと、APUからCPUを取り外してGPUダイを増やしたInstinct MI300Xをチップレットで実現

AMDのInstinct MI300X、8つのGPUダイと192GBのHBM3というチップ単体でもお化けスペック

 そうしたInstinct Platformなどを構成するGPU/APUとなるのがInstinct MI300シリーズになる。Instinct MI300シリーズには2つの製品が用意されており、それがGPUのMI300X、APU(CPU+GPU)のMI300Aになる。

 両製品の特徴は、どちらも3Dチップレット技術を応用して作られていることだ。ベースダイとなるIODは、表面に見えているCPU、GPUチップの下に積層されており、放熱する必要があるCPU、GPUのチップがその上に積層されている。

 また、最大192GBのHBM3がCPU/GPUのチップを囲む形で実装されている。3Dのチップレットを活用しているという意味では、Intelが既に昨年発表したIntel Data Center GPU Maxとして発表した「Ponte Vecchio」に近い構造と言える。ただし、Ponte Vecchioよりはシンプルな構造になっており、製造時のたやすさなどはMI300Xの方が勝っていると考えられる。

Instinct MI300A(CESで撮影)

 Instinct MI300シリーズのユニークな点は、1つの3Dチップレットデザインで、GPUもAPUも実現できている点にある。APUのMI300Aは6つのGPUチップと3つのCPUチップから構成されている。それに対して、MI300Xでは3つのCPUチップをなくし、2つのGPUチップを追加して、GPUのチップは合計で8チップとして演算リソースを増やしている。

 またメモリもMI300Aは128GBのHBM3になっているのに対して、MI300Xは192GBのHBM3と容量が増やされており、より大容量のメモリが必要になる大規模のAI学習/推論に利用することを意識した設計になっている。

Instinct MI300シリーズは3Dチップレットを採用している

 さらに、APUのMI300Aでは、メモリはCPUとGPUが1つのメモリアドレスをシェアするシェアードメモリになっている。従来のアーキテクチャでは、CPUが利用するメモリとGPUが利用するメモリは、異なるメモリアドレス空間となっており、CPUにあるデータをGPUで演算させる場合には、それをCPUのメモリからGPUのメモリへコピーする必要があり、その度にメモリアクセスが発生し、CPUとGPUを接続する内部インターコネクトの帯域を圧迫して性能低下の原因になっていた。

 MI300Aではアーキテクチャ的にCPUとGPUがメモリアドレスを共有しており、GPUがデータを処理する時にはCPUからメモリアドレスを指定されるだけで済む。

今回は具体的な性能には言及なかった

 ただし、今回AMDはInstinct MI300シリーズのGPUアーキテクチャとなるCDNA 3に関してほとんど説明しなかった。基本的にはRDNA 3のデータセンター版になるアーキテクチャだと考えられるが、それがAIの学習や推論向けにどんな拡張を行なっているのか、RDNA 3で実装されたAIエンジンは利用できるのかなど、詳細は全く不明だ。

 また、性能に関しても今回は具体的には何も語られず、NVIDIAのH100に比較して密度で2.4倍、メモリ帯域は1.6倍という点がアピールされただけだった。

 なお、リリース時期に関してだが、既報の通りで、MI300Aは既にサンプル出荷済みで、MI300Xに関しては第3四半期にサンプル出荷が開始される見通しだ。

MetaのPyTorch 2.0がROCm最新版との組み合わせでAMD GPUへの最適化を標準サポートと発表

AMD 社長 ビクター・ペン氏

 今回、AIデータセンター向けのソフトウェア開発環境「ROCm」に関する説明も行なった。ROCmに関しては既にInstinct向けに投入しており、現在はROCm 5というリリースが提供されている。このROCmは非常にざっくり言ってしまえば、AMD版CUDAであり、TensorFlowやPyTorchといったディープラーニングのフレームワークなどを活用して、AMDのCPU、GPUやFPGAなどでAIの学習や推論を行なうソフトウェアを容易に構築できる。

AMD版CUDAとなるROCm

 こうした開発環境は、スケールアップやスケールアウトしてGPUを並列に並べてスーパーコンピュータを構築する上で重要なもので、NVIDIAのCUDAが優れているのは、1つのGPUから、数百個などのより大規模な並列環境まで伸縮自在に対応することが可能なことだ。NVIDIAのジェンスン・フアンの言葉を借りれば「1つの巨大なGPU」(One giant GPU)として使えるため、AIの開発者にとって難しいハードウェアのことは分からなくても、CUDAを使うとものすごい性能で演算できるという点にある。

 もちろん、AMDのROCmも同様で、1つのGPUから、8つのInstinct Platform、そしてそれをスケールアウトして数百のGPUがある場合でも、1つのGPUとしてROCm経由で扱える。

 また、CUDAのコードをROCmのコードに変換するツールなどが用意されており、既にCUDAベースのAIソフトウェア資産を持っている企業や開発者も、CUDA+NVIDIA GPUという環境をROCm+AMD GPUという環境に置きかえることが可能になっている。

AMD 社長 ビクター・ペン氏(左)とPyTorchの創始者 兼 Meta 副社長 ソウミス・チンタラ氏

 今回のイベントで、AMD 社長 ビクター・ペン氏が登壇し、同社とソフトウェア開発パートナーとの協業に関して説明。壇上には、PyTorchの創始者でMeta 副社長のソウミス・チンタラ氏を壇上に呼び、AMDとPyTorchのパートナーシップに関して説明を行なった。

 PyTorchはFacebookの社内で立ち上げられたオープンソースプロジェクトがベースになっているディープラーニングのフレームワークで、多くのAI開発者がPyTorchを利用してAI学習やAI推論のアプリケーションを構築している。

 今回AMDとMetaが発表したのは、今後リリースする「ROCm release 5.4.2」において、PyTorch 2.0のROCmを介したInstinctアクセラレータに最適化を進めるという発表で、今後PyTorchを利用する開発者は、ハードウェアの知識がなくてもROCmを開発環境として導入するだけでInstinctアクセラレータを活用することが可能になる。

AMD 社長 ビクター・ペン氏(左)とHugging Face CEO クレメント・デランジュ氏

 同様に発表はAIモデルを提供するHugging Faceも行なっており、Hugging Faceが提供するAIモデルがAMDのCPU/GPU/FPGAなどに対応することで、最適化が進められると明らかにした。Hugging FaceのAIモデルを利用している顧客は、そのままでAMDのプロセッサを利用して学習や推論を高性能で行なうことが可能になる。

 今回AMDがこうしたアピールをしたのも、NVIDIAの強みがソフトウェア開発環境としてCUDAに慣れ親しんでいる開発者が多く、開発者がAI演算のハードウェアとしてNVIDIA GPUを選んでいる現実をしっかり認識しているからだろう(それが今のNVIDIAの強みだ)。だからこそ、CUDAから簡単にポーティングできること、そしてPyTorchのようなAI開発者が慣れ親しんでいるフレームワークから特に難しいことを考えなくても、AMDのCPU/GPU/FPGAなどを統合的に利用できるとアピールしたのは、そうした状況を打破したいと考えていることの裏返しだ。

 既にCUDAが15年の歴史を持っているのに対して、ROCmはまだ7年程度の歴史しかない状況で、かつAIで本格的に使われるようになったのはCUDAに比べて随分遅かった。その意味で、AMDがその遅れを取り返すのは容易なことではないが、そういうのは「鶏と卵」の関係で、仮にNVIDIAのGPUに比べてAMDのGPUが圧倒的に速いということになれば、多くの開発者がそれを「鶏」と認識して、たくさんの「卵」となるコードを書き始めて、それが次の鶏を産む……という好循環に入る可能性はある。

 今回AMDがチラ見せしたInstinct MI300シリーズには十分その「鶏」になれる可能性があると言えるし、「NVIDIA DGXキラー」となり得るInstinct Platformの存在も含めてその行方は要注目だ。