ニュース

AMD、HPC向けGPU「 Instinct MI100」。FP32/64でNVIDIA A100を上回る

~Zen3な第3世代EPYCは2021年第1四半期に正式発表

AMD Instinct MI100を搭載したアクセラレータカード

 AMDは16日(現地時間)、HPC向けアクセラレータ「AMD Instinct MI100」を発表した。AMD Instinct MI100は、FP32(単精度浮動小数点)演算時の性能は最大23.1TFLOPS、FP64(倍精度浮動小数点)演算時の性能は11.54TFLOPSとなっており、NVIDIAがこの春に提供を開始したNVIDIA A100を上回る性能を実現している。

Radeon RX 6900 XTの1.5倍となる120基のCUを備えた超ハイスペックGPU

AMD Instinct MI100のダイとHBM2メモリ

 「AMD Instinct MI100」は、同社のHPC/サーバー向けのアクセラレータの最新製品だ。HPCやクラウドなどのサーバーに組み込み、ディープラーニングの学習や科学演算などの用途を想定している。

 これまではVegaアーキテクチャで7nm製造の「AMD Radeon Instinct MI50」を提供してきたが、AMD Instinct MI100はその後継となる製品だ。今回の製品から“Radeon”が外されているが、AMDによればRadeonはよりコンシューマ向けブランドというかたちに方針が転換されたため、今後HPC/クラウド向けのアクセラレータ製品にはRadeonはつかず、「Instinct」がブランド名となる。

カードの外形、8ピン×2の補助電源端子などがある
Supermicroの4Uラックに8枚のカードを搭載した状態

 今回発表したAMD Instinct MI100のスペックは以下のとおりだ。

【表1】AMD Instinct MI100のスペック
Compute Unit120
Stream Processor7,680
HBM2 ECC Memory32GB/1.2GHz
メモリ帯域最大1.23 TB/s
電源300W

 AMD Instinct MI100は、AMDがCDNAアーキテクチャと呼ぶGPUアーキテクチャに基づいている。CDNAアーキテクチャはゲーミング向けと位置づけられるRDNAと基本的な部分のアーキテクチャを共有しながら、HPCなど汎用コンピューティングに特化したものとなっている。

 先日発表されたRadeon RX 6000シリーズと基本的なアーキテクチャを共有しながら、各部分が拡張されたものと考えることができる。

 RDNA2に基づいているRadeon RX 6000シリーズでは、Radeon RX 6900 XTのCU(Compute Unit)80基が最大スペックだが、AMD Instinct MI100では120基となっており、その分性能が引き上げられている。前世代に比べるとコンピュートユニットの密度は2倍になっているという。メモリは32GBのHBM2メモリが搭載されており、1.2GHzで1.23TB/sのメモリ帯域を実現している。

AMD Instinct MI100
特徴
RDNAとCDNA
AMD Instinct MI100のスペック

 内部構造も見直されており、CPUやほかのGPUとの接続には、3つのAMD Infinity Fabric Linkを利用して接続できる。それぞれピア・トゥ・ピア(P2P)で接続可能で、PCI Express 4.0に比べて倍の340GB/sの転送速度が出せる。また、2ポートのみの場合にはそれぞれ522GB/sでつなげられる。PCI Express 4.0にも対応しており、CPUとの接続に利用可能だ。

FP64演算時の性能は11.54TFLOPS、FP32演算時の性能は23.1TFLOPSでNVIDIA A100を上回る性能

AMD Instinct MI100の性能

 FP64演算時の性能は11.54TFLOPS、FP32演算時の性能は23.1TFLOPSとなっており、それぞれNVIDIAが今年(2020年)発表したNVIDIA A100のFP64時の9.7TFLOPSと、FP32時の19.5TLOPSを上回っている。

 ただし、NVIDIA A100の発表時にTF32(FP32とFP64のハイブリッド方式)と「Structural sparsity」という密行列(Dense Matrix)を疎行列(Sparse matrix)に置き換えて演算する新しい方式の採用を明らかにしている。

 そのため、TF32では156TFLOPS、TF32+Structural sparsityで312TFLOPSとしているが、こちらはソフトウェア側の対応が必要になるので、現在のソフトウェアでFP64とFP32の演算をさせた場合にはAMDがNVIDIAを上回っていることになる。

 両社の発表を表にすると以下のようになる。

【表2】AMD Instinct MI100とNVIDIA A100の性能比較
AMD Instinct MI100NVIDIA A100
FP6411.54TFLOPS9.7TFLOPS
FP3223.1TFLOPS19.5TFLOPS
FP32 Matrix46.1TFLOPS312TFLOPS ※1
FP16/FP16 Matrix186.4TFLOPS624TFLOPS ※2
Bflot1692.3TLOPS624TLOPS ※2
INT8184.6TOPs1,248TOPs ※2
INT4184.6TOPs2,496TOPs ※2

※1 TF32+Structural sparsity有効時
※2 Structural sparsity有効時

 GPUの演算器だけを利用したFP64やFP32ではAMD Instinct MI100が上回る。一方で、Tensor Coreという専用の演算器やStructural sparsityも利用できるINT4、INT8、TF32、Bfloat16の演算時などにはNVIDIAのA100がより高いピーク性能を発揮できると言えるだろう。

ROCm 4.0のリリース
従来バージョンではベータだった機能が正式版に

 AMDはAMD Instinct MI100のリリースに合わせて、NVIDIAが提供しているCUDAに相当するソフトウェア開発キット「ROCm」の最新版となるROCm 4.0のリリースも明らかにした。

 ROCmでは、CUDAコードを読み込みAMD Instinctで利用できるコードに変換するツールなどが用意されており、容易にAMD Instinct向けのソフトウェアを作成可能になる。今回、ROCm 3.0では未完成だったHPC向けアプリケーションへの対応などがなされ、より多くの用途にAMD Instinctを利用できるようになるとのことだ。

Dell、HPE、GIGABYTE、SupermicroなどのOEMメーカーからも提供予定

 AMD Instinct MI100は、今年末までの出荷開始が予定されており、AMDのチャネルパートナー経由などで販売される。また、今後数カ月以内にDell、HP、GIGABYTE、SupermicroなどのOEMメーカーのシステムに組み込まれても販売される計画だ。

Zen3になった第3世代EPYCは今四半期中に出荷開始

Zen3アーキテクチャな第3世代EPYCは限定された顧客に第4四半期に出荷され、来年の第1四半期に正式発表

 AMDは同社のデータセンター/HPC向けのCPUとなるAMD EPYCに関する情報もアップデートした。

 それによれば、11月に出荷が開始された第4世代Ryzen(Ryzen 5000シリーズ)に採用されているCPUアーキテクチャ「Zen3」を採用した次世代のAMD EPYCがまもなく出荷開始されるという。

 Zen3を採用したEPYCは「第3世代EPYC」という製品ブランドになり、第4四半期中に選ばれたHPCユーザーとクラウド事業者向けに出荷が開始されるという。正式な発表は来年(2021年)の第1四半期が計画されている。

 Intelも今年中に、2ソケット向けの次世代製品「Ice Lake-SP」の発表を計画しており、年末から来年にかけてデータセンター/HPC向けのプロセッサ競争がより激しくなりそうだ。