ニュース

AMD、HPC向けGPU「 Instinct MI100」。FP32/64でNVIDIA A100を上回る

～Zen3な第3世代EPYCは2021年第1四半期に正式発表

笠原一輝

2020年11月16日 23:00

AMD Instinct MI100を搭載したアクセラレータカード

　AMDは16日(現地時間)、HPC向けアクセラレータ「AMD Instinct MI100」を発表した。AMD Instinct MI100は、FP32(単精度浮動小数点)演算時の性能は最大23.1TFLOPS、FP64(倍精度浮動小数点)演算時の性能は11.54TFLOPSとなっており、NVIDIAがこの春に提供を開始したNVIDIA A100を上回る性能を実現している。

Radeon RX 6900 XTの1.5倍となる120基のCUを備えた超ハイスペックGPU

AMD Instinct MI100のダイとHBM2メモリ

　「AMD Instinct MI100」は、同社のHPC/サーバー向けのアクセラレータの最新製品だ。HPCやクラウドなどのサーバーに組み込み、ディープラーニングの学習や科学演算などの用途を想定している。

　これまではVegaアーキテクチャで7nm製造の「AMD Radeon Instinct MI50」を提供してきたが、AMD Instinct MI100はその後継となる製品だ。今回の製品から“Radeon”が外されているが、AMDによればRadeonはよりコンシューマ向けブランドというかたちに方針が転換されたため、今後HPC/クラウド向けのアクセラレータ製品にはRadeonはつかず、「Instinct」がブランド名となる。

カードの外形、8ピン×2の補助電源端子などがある

Supermicroの4Uラックに8枚のカードを搭載した状態

　今回発表したAMD Instinct MI100のスペックは以下のとおりだ。

【表1】AMD Instinct MI100のスペック
Compute Unit	120
Stream Processor	7,680
HBM2 ECC Memory	32GB/1.2GHz
メモリ帯域	最大1.23 TB/s
電源	300W

　AMD Instinct MI100は、AMDがCDNAアーキテクチャと呼ぶGPUアーキテクチャに基づいている。CDNAアーキテクチャはゲーミング向けと位置づけられるRDNAと基本的な部分のアーキテクチャを共有しながら、HPCなど汎用コンピューティングに特化したものとなっている。

　先日発表されたRadeon RX 6000シリーズと基本的なアーキテクチャを共有しながら、各部分が拡張されたものと考えることができる。

　RDNA2に基づいているRadeon RX 6000シリーズでは、Radeon RX 6900 XTのCU(Compute Unit)80基が最大スペックだが、AMD Instinct MI100では120基となっており、その分性能が引き上げられている。前世代に比べるとコンピュートユニットの密度は2倍になっているという。メモリは32GBのHBM2メモリが搭載されており、1.2GHzで1.23TB/sのメモリ帯域を実現している。

AMD Instinct MI100

特徴

RDNAとCDNA

AMD Instinct MI100のスペック

　内部構造も見直されており、CPUやほかのGPUとの接続には、3つのAMD Infinity Fabric Linkを利用して接続できる。それぞれピア・トゥ・ピア(P2P)で接続可能で、PCI Express 4.0に比べて倍の340GB/sの転送速度が出せる。また、2ポートのみの場合にはそれぞれ522GB/sでつなげられる。PCI Express 4.0にも対応しており、CPUとの接続に利用可能だ。

FP64演算時の性能は11.54TFLOPS、FP32演算時の性能は23.1TFLOPSでNVIDIA A100を上回る性能

AMD Instinct MI100の性能

　FP64演算時の性能は11.54TFLOPS、FP32演算時の性能は23.1TFLOPSとなっており、それぞれNVIDIAが今年(2020年)発表したNVIDIA A100のFP64時の9.7TFLOPSと、FP32時の19.5TLOPSを上回っている。

　ただし、NVIDIA A100の発表時にTF32(FP32とFP64のハイブリッド方式)と「Structural sparsity」という密行列(Dense Matrix)を疎行列(Sparse matrix)に置き換えて演算する新しい方式の採用を明らかにしている。

　そのため、TF32では156TFLOPS、TF32＋Structural sparsityで312TFLOPSとしているが、こちらはソフトウェア側の対応が必要になるので、現在のソフトウェアでFP64とFP32の演算をさせた場合にはAMDがNVIDIAを上回っていることになる。

　両社の発表を表にすると以下のようになる。

【表2】AMD Instinct MI100とNVIDIA A100の性能比較
	AMD Instinct MI100	NVIDIA A100
FP64	11.54TFLOPS	9.7TFLOPS
FP32	23.1TFLOPS	19.5TFLOPS
FP32 Matrix	46.1TFLOPS	312TFLOPS ※1
FP16/FP16 Matrix	186.4TFLOPS	624TFLOPS ※2
Bflot16	92.3TLOPS	624TLOPS ※2
INT8	184.6TOPs	1,248TOPs ※2
INT4	184.6TOPs	2,496TOPs ※2

※1 TF32＋Structural sparsity有効時
※2 Structural sparsity有効時

　GPUの演算器だけを利用したFP64やFP32ではAMD Instinct MI100が上回る。一方で、Tensor Coreという専用の演算器やStructural sparsityも利用できるINT4、INT8、TF32、Bfloat16の演算時などにはNVIDIAのA100がより高いピーク性能を発揮できると言えるだろう。

ROCm 4.0のリリース

従来バージョンではベータだった機能が正式版に

　AMDはAMD Instinct MI100のリリースに合わせて、NVIDIAが提供しているCUDAに相当するソフトウェア開発キット「ROCm」の最新版となるROCm 4.0のリリースも明らかにした。

　ROCmでは、CUDAコードを読み込みAMD Instinctで利用できるコードに変換するツールなどが用意されており、容易にAMD Instinct向けのソフトウェアを作成可能になる。今回、ROCm 3.0では未完成だったHPC向けアプリケーションへの対応などがなされ、より多くの用途にAMD Instinctを利用できるようになるとのことだ。

Dell、HPE、GIGABYTE、SupermicroなどのOEMメーカーからも提供予定

　AMD Instinct MI100は、今年末までの出荷開始が予定されており、AMDのチャネルパートナー経由などで販売される。また、今後数カ月以内にDell、HP、GIGABYTE、SupermicroなどのOEMメーカーのシステムに組み込まれても販売される計画だ。