笠原一輝のユビキタス情報局

AI=NVIDIAの牙城を崩すAMDの新GPU「Instinct MI300X」

AMDが発表したInstinct MI300X

 AMDは米国カリフォルニア州サンノゼ市において12月6日(米国時間)、「AMD Advancing AI」と題した発表会を開催し、同社のAI向け最新半導体製品を発表した。この中でAMDは、同社がNVIDIA H100対抗と位置付けるGPUの「Instinct MI300X」、APUの「Instinct MI300A」という2つの製品を発表した。前者はデータセンターでのAI学習・推論向け、後者はデータセンターでのHPC処理向けと位置付けられている。

 この中でAMDは、より進化したチップレット技術を採用し、NVIDIAに比べて高い性能、そしてメモリ容量をInstinct MI300Xで実現している。今回AMDがAMD Advancing AIの中で明らかにしたInstinct MI300シリーズの詳細や、NVIDIA H100 GPUと比べてのメリットなどに関して考察していきたい。

2.5Dと3Dのパッケージング技術で高性能かつ低コストを実現するInstinct MI300シリーズ

Instinct MI300Xの構造
Instinct MI300Aの構造

 まず、Instinct MI300XとMI300Aの違いから入っていこう。MI300XはGPUのダイ(XCD)が8つという構成になっているが、MI300AはそのXCDを2つ減らし、代わりにZen 4世代のx86プロセッサコアのダイ(CCD)を3つ搭載している点が、2つの製品の大きな違いとなる。

【表1】MI300XとMI300Aの違い
XCD(GPUダイ)CCD(CPUダイ)IODIO構成HBM3
Instinct MI300X8-47×16 IF/1×16 PCIe 5.0192GB(12H×8スタック)
Instinct MI300A6344×16 IF/4×16 PCIe 5.0128GB(8H×8スタック)

 今回さらに明らかにされたのは、XCDやCCDの下に3Dパッケージング技術を利用して実装されているIOD。TSMCのSoICと呼ばれる3Dパッケージング技術を用いて、IODの上にXCDやCCDを実装しているという。

 MI300シリーズのIODは、4つのダイが1つのパッケージに実装されており、合計で256MBのLLC(Last Level Cache)、HBM3のメモリコントローラを備える。MI300Xでは16レーンInfinity Fabric(AMD独自の高速インターコネクト)×7とPCI Express 5.0 x16×1を搭載し、MI300Aでは16レーンInfinity Fabric×4とPCI Express 5.0 x16×4という構成になっている。

 1つのIODは16レーンのハイスピードI/Oを2つ備えており、1つはInfinity Fabricに固定され、もう1つはInfinity FabricないしはPCI Express 5.0のミックスモードになっており切り替えて使える。つまり、MI300XではそれをInfinity Fabricにほぼ全振り(PCI Express 5.0 x16×1のみ)し、MI300Aでは4×16 Infinity Fabricと、PCI Express 5.0 x16×4という構成にしているわけだ。

 IODとHBM3メモリの接続は、2.5Dのパッケージング技術になるTSMCのCoWoS(コワス)が利用されている。つまり、MI300シリーズは2.5D、3Dのいずれのパッケージング技術も、TSMCのパッケージング技術が利用されていることになる。なお、GPUダイとなるXCDとCPUダイとなるCCDはいずれもTSMC 5nm(N5)で製造され、IODはTSMC 6nm(N6)で製造されていることが明らかにされている。

 HBM3のメモリベンダーは今回明らかにされなかったが、AMDによれば、どのHBM3の製造ベンダー(具体的にはSamsung、Hynix、Micron)とも同じ距離で調達しているとは説明されており、ロットなどによって異なる可能性が高そうだ(もっともベンダーの違いで性能が変わってくる可能性は低いが……)。

 なお、MI300Xは192GB、MI300Aは128GBとメモリの容量は違っている。これは、市場のニーズを勘案したためで、技術的な制約ではないとのことだった。HPC市場では、生成AI学習などのようにそこまで大きなメモリのニーズはない、そう判断した結果このスペックになったという説明がされた。

メモリ容量と帯域、低コストのインターコネクトが競合との大きな差別化ポイント

NVIDIAのH100とMI300Xの比較

 今回AMDは、NVIDIA H100の弱点を発表会や発表会後の記者説明会の中で巧妙に指摘し、それを詰めかけた関係者に印象付けていたという意味で、非常にうまくプレゼンテーションを行なっていた。そのNVIDIA H100 GPUの弱点として挙げたのが、メモリ容量、メモリ帯域幅、そしてNVLink/NVSwitchというプロプライエタリかつ高価なスケールアップのインターコネクトだ。

 まずメモリ周りに関して、AMDは4つのIODそれぞれにメモリコントローラを搭載することで、最大で8スタックのHBM3をサポートしている。その結果、メモリ帯域は5.3TB/sになっており、同時に高さ方向で12Hとすることで、MI300Xで192GB、8HとすることでMI300Aでは128GBという大容量メモリを実現している。

 これに対してNVIDIA H100(SXM)ではメモリ帯域幅は3.35TB/s、メモリ容量は80GBとなっている。AMDの2製品はどちらの点においても競合を上回っており、大きなパラメータを持つような、LLMなどの大規模モデルの学習時にボトルネックとなる点で差別化ができていることになる。

 もっとも、NVIDIAもそのことを認識しており、10月にはH200というHBM3eを搭載したH100のアップデート版を発表し、来年(2024年)発売することを明らかにした。H200(SXM)ではメモリ容量は141GBに、メモリ帯域は4.8TB/sになるものの、それでもメモリ容量、帯域ともにMI300Xが上回っている。仮にMI300XのHBM3e版があれば、AMD側もさらに大容量・広帯域を実現できると考えられるため、アーキテクチャ的に考えると、2.5Dと3Dのチップレットを採用しているMI300Xの優位は揺るがないと言える。

NVIDIAのDGX H100の内部。GPUとGPUとの接続にはNVLinkが利用されるが、NVSwitchという追加チップが4つ必要になる
AMDのInstinct MI300X Platformは追加のチップなく8つのGPUが接続できる

 もう1つNVIDIAの弱点は、DGX H100でGPUを8つにスケールアップするのに利用されているNVLinkおよびNVSwitchというインターコネクトが高コストだということだ。NVIDIAはDGX H100において8つGPU間で十分な広帯域を実現するため、H100に搭載されているNVLinkだけでは足りず、NVSwitchという、GPUとは別のスイッチチップを4つ搭載している。これがDGXシリーズの高コスト化につながっていることは容易に想像できる。

 AMDがレファレンスデザインとして提供しているInstinct MI300X Platformでは、MI300Xに搭載されているInfinity Fabricだけで896GB/sという十分な帯域幅を確保しており、決して高コストではないことをアピールしている。AMDはInstinct MI300X Platformの価格を明らかにしていないが、Instinct MI300X Platformを採用したOEMメーカーの製品が競合製品(具体的にはNVIDIA DGX H100を意味する)と比較して、競争力がある価格、つまりより安価であると強調している。

今後AMDのInfinity Fabricは戦略パートナー企業にライセンス提供されるというセミ・オープン戦略をとる

 しかも、今回の発表会において、AMDはもう1つの駄目押しとなる発表をしている。それがInfinity Fabricのライセンスを戦略パートナー企業に対して公開するというもので、プロプライエタリなNVLink/NVSwitchに比べて「セミ・オープン」にすることで、他社の参入を促すものだ。たとえば、AMDがラインアップしていないArm CPUの企業にInfinity Fabricのライセンスを付与して、Arm CPU+Instinct MI300Xというプラットフォームを作ることなどが考えられるだろう。

スケーアウト時のNVIDIAの強み「InfiniBand」の対抗となる「Ultra Ethernet」の推進

Ethernetこそ答えだとAMD

 そして、今回AMDはもう1つNVIDIAの強みを削り取る、将来に向けた施策を明らかにしている。それがAMDとパートナーによる「Ultra Ethernet」の推進だ。

 NVIDIAのH100やそれをサーバーにしたDGX H100(NVIDIAブランドのサーバー)やHGX H100(OEMメーカーブランドのサーバー)は、NVIDIAが2019年に買収、翌2020年に買収を完了したMellanoxが提供するInfiniBandのコントローラとEthernetの両方を利用して、サーバーとサーバーを接続して1つの巨大なクラスター(イマドキの言い方だとPod)にスケールアウト(サーバー機器同士を接続して1つの巨大なGPUを構築すること)を可能にしている。

 実はInfiniBandそのものはオープンな規格なのだが、Mellanoxがトップシェアで、特に400Gbpsなどの高速な製品は他社に先駆けて投入しており、それがNVIDIAの強みの1つになっている。

 AMDはそうしたNVIDIAの強みを「Ultra Ethernet」という新しいEthernetの規格を推進していくことで対抗する戦略だ。Ultra Ethernetは6月に設立された「Ultra Ethernet Consortium」で検討されている次世代の高速なEthernetで、HPCやAIのサーバーをスケールアップする時に活用できる仕様を目指し、規格の策定が進んでいる。Ultra Ethernet Consortiumの設立時からの幹事企業を見ると、半導体メーカーはAMD、Broadcom、Intelの3社、そしてOEMメーカーはARISTA、CiscoとHPE、プラットフォーマーとしてのMetaとMicrosoftといった企業がそろっている。

 ここにはHPC/AI市場での主要プレーヤーであるNVIDIAは入っていないということは容易に理解できる。このUltra Ethernet Consortiumは、Mellanoxを買収してInfiniBandで強みを持つことになったNVIDIAに対抗する企業の集まりだということは明らかだ。

Ultra Ethernetを推進するパートナー企業としてARISTA、Broadcom、Ciscoが壇上に呼ばれる

 今回AMDは、AMD Advancing AIの基調講演に、Ultra Ethernet Consortiumの設立時幹事企業でもあるARISTA、Broadcom、Ciscoの3社をゲストとして招待し、Ultra Ethernetへの期待に関して語ってもらったほか、Broadcomの400GbpsのEthernetコントローラを搭載したNICを展示するなどして、スケールアウトでもNVIDIAに対抗していくソリューションを展示した。

Broadcomの400GEthernetやARISTAのEthernetなどが展示される

 現時点ではAMDがPodのレファレンスデザインなどは用意していないが、既にそうした400Gibagit Ethernetなどを利用することで、巨大なクラスターを構築できることをアピールし、OEMメーカーなどにそうしたシステムの設計を促す狙いがあるものと見られる。

既にOEMメーカーシステムへの採用やCSPからの受注を明らかに。本格的にNVIDIAからの乗り換え先として検討する段階に

OCPモジュールとヒートシンクが付いたInstinct MI300Xとそのチップ単体

 今回AMDは、こうしたInstinct MI300XとMI300A、それぞれを搭載したOEM/ODMメーカーのサーバー機器を展示した。Instinct MI300Xに関しては、AMD自身のレファレンスデザインとなるInstinct MI300A Platform、MicrosoftのAzure向け、Dell Technologies、Supermicro、GIGABYTEのサーバー機器が展示された。また、Instinct MI300Aに関しては、Supermicro、GIGABYTE、HPEの3社のサーバー機器が展示されていた。

SupermicroのMI300X搭載サーバー
DellのMI300X搭載サーバー
GIGABYTEのMI300X搭載サーバー

 そして、今回AMDはソフトウェア面でも大きな進化を果たしている。それがAMD版CUDAになる「ROCm」(ロックエム)の新バージョン「ROCm 6」を発表したことだ。ROCm 6では、生成AIで使われるLLM(大規模言語モデル)のようなモデルに最適化されており、ソフトウェアによる最適化も進み、処理によっては大きな性能向上を実現しているという。

 たとえば、Llama 2 70Bの推論モデルではMI250X+ROCm 5と比較してMIX300X+ROCm 6は8倍も高速になるという。また、NVIDIA H100と比べると、MI300X+ROCmは1.2倍になるなど、競合となるNVIDIA H100と比較しても推論では上回る性能を発揮する。学習に関しては、H100とほぼ同じ性能を発揮するとAMDは説明している。

 しかも今回AMDは発表段階から、パブリック・クラウドサービス経由でGPUによる学習を可能にするインスタンスを、2つのCSP(クラウドサービスプロバイダ)経由で提供すると発表している。現在生成AIの開発は、オンプレミスからクラウドへのシフトが起きている段階だ。CSPでは、AI学習の演算装置として、GPUやGoogleのTPU、AWSのTrainiumなどのAIアクセラレータを提供しており、コストとの兼ね合いでどちらも容易に選択できるようになっている。CSPが提供する開発キットから演算ターゲットを指定するだけで利用できるので、開発者はそれをNVIDIAのGPU上で演算しているのか、AIアクセレータ上で演算しているのかをあまり意識する必要はなくなりつつある。つまり、CSPやその利用者にとっては、GPUがCUDAを経由しているNVIDIA GPUなのか、ROCmを経由しているAMD GPUなのかはあまり意識する必要がないということだ。

Microsoft AzureのMI300X搭載サーバー
OCIもMI300Xをインスタンスとして導入する計画を明らかに

 今回AMDは、4大CSP(AWS、Microsoft Azure、Google Cloud、OCI)のうち2つであるMicrosoft Azure、OCI(Oracle Cloud Infrastructure)へ採用が決まったことを発表している。どちらも今後生成AI学習や推論のニーズが高まっていくとみられており、そうしたCSPでInstinct MI300Xの採用が決まったことは大きな一歩と言える。

 このように、今回AMDはInstinct MI300シリーズに関して大きな進化を遂げたことを来場者に強く印象付けたと言える。これから市場では実際に流通し始める製品を利用しての評価が始まるだろう。現在市場では、NVIDIA GPUの「品不足」を業界の誰もが訴えている状況で、その代替としてInstinct MI300Xは十分検討に値する可能性を秘めている、筆者はそう感じたとしてこの記事のまとめとしたい。