ニュース
AMD、HPC向けGPU「 Instinct MI100」。FP32/64でNVIDIA A100を上回る
~Zen3な第3世代EPYCは2021年第1四半期に正式発表
2020年11月16日 23:00
AMDは16日(現地時間)、HPC向けアクセラレータ「AMD Instinct MI100」を発表した。AMD Instinct MI100は、FP32(単精度浮動小数点)演算時の性能は最大23.1TFLOPS、FP64(倍精度浮動小数点)演算時の性能は11.54TFLOPSとなっており、NVIDIAがこの春に提供を開始したNVIDIA A100を上回る性能を実現している。
Radeon RX 6900 XTの1.5倍となる120基のCUを備えた超ハイスペックGPU
「AMD Instinct MI100」は、同社のHPC/サーバー向けのアクセラレータの最新製品だ。HPCやクラウドなどのサーバーに組み込み、ディープラーニングの学習や科学演算などの用途を想定している。
これまではVegaアーキテクチャで7nm製造の「AMD Radeon Instinct MI50」を提供してきたが、AMD Instinct MI100はその後継となる製品だ。今回の製品から“Radeon”が外されているが、AMDによればRadeonはよりコンシューマ向けブランドというかたちに方針が転換されたため、今後HPC/クラウド向けのアクセラレータ製品にはRadeonはつかず、「Instinct」がブランド名となる。
今回発表したAMD Instinct MI100のスペックは以下のとおりだ。
Compute Unit | 120 |
---|---|
Stream Processor | 7,680 |
HBM2 ECC Memory | 32GB/1.2GHz |
メモリ帯域 | 最大1.23 TB/s |
電源 | 300W |
AMD Instinct MI100は、AMDがCDNAアーキテクチャと呼ぶGPUアーキテクチャに基づいている。CDNAアーキテクチャはゲーミング向けと位置づけられるRDNAと基本的な部分のアーキテクチャを共有しながら、HPCなど汎用コンピューティングに特化したものとなっている。
先日発表されたRadeon RX 6000シリーズと基本的なアーキテクチャを共有しながら、各部分が拡張されたものと考えることができる。
RDNA2に基づいているRadeon RX 6000シリーズでは、Radeon RX 6900 XTのCU(Compute Unit)80基が最大スペックだが、AMD Instinct MI100では120基となっており、その分性能が引き上げられている。前世代に比べるとコンピュートユニットの密度は2倍になっているという。メモリは32GBのHBM2メモリが搭載されており、1.2GHzで1.23TB/sのメモリ帯域を実現している。
内部構造も見直されており、CPUやほかのGPUとの接続には、3つのAMD Infinity Fabric Linkを利用して接続できる。それぞれピア・トゥ・ピア(P2P)で接続可能で、PCI Express 4.0に比べて倍の340GB/sの転送速度が出せる。また、2ポートのみの場合にはそれぞれ522GB/sでつなげられる。PCI Express 4.0にも対応しており、CPUとの接続に利用可能だ。
FP64演算時の性能は11.54TFLOPS、FP32演算時の性能は23.1TFLOPSでNVIDIA A100を上回る性能
FP64演算時の性能は11.54TFLOPS、FP32演算時の性能は23.1TFLOPSとなっており、それぞれNVIDIAが今年(2020年)発表したNVIDIA A100のFP64時の9.7TFLOPSと、FP32時の19.5TLOPSを上回っている。
ただし、NVIDIA A100の発表時にTF32(FP32とFP64のハイブリッド方式)と「Structural sparsity」という密行列(Dense Matrix)を疎行列(Sparse matrix)に置き換えて演算する新しい方式の採用を明らかにしている。
そのため、TF32では156TFLOPS、TF32+Structural sparsityで312TFLOPSとしているが、こちらはソフトウェア側の対応が必要になるので、現在のソフトウェアでFP64とFP32の演算をさせた場合にはAMDがNVIDIAを上回っていることになる。
両社の発表を表にすると以下のようになる。
【表2】AMD Instinct MI100とNVIDIA A100の性能比較 | ||
---|---|---|
AMD Instinct MI100 | NVIDIA A100 | |
FP64 | 11.54TFLOPS | 9.7TFLOPS |
FP32 | 23.1TFLOPS | 19.5TFLOPS |
FP32 Matrix | 46.1TFLOPS | 312TFLOPS ※1 |
FP16/FP16 Matrix | 186.4TFLOPS | 624TFLOPS ※2 |
Bflot16 | 92.3TLOPS | 624TLOPS ※2 |
INT8 | 184.6TOPs | 1,248TOPs ※2 |
INT4 | 184.6TOPs | 2,496TOPs ※2 |
※1 TF32+Structural sparsity有効時
※2 Structural sparsity有効時
GPUの演算器だけを利用したFP64やFP32ではAMD Instinct MI100が上回る。一方で、Tensor Coreという専用の演算器やStructural sparsityも利用できるINT4、INT8、TF32、Bfloat16の演算時などにはNVIDIAのA100がより高いピーク性能を発揮できると言えるだろう。
AMDはAMD Instinct MI100のリリースに合わせて、NVIDIAが提供しているCUDAに相当するソフトウェア開発キット「ROCm」の最新版となるROCm 4.0のリリースも明らかにした。
ROCmでは、CUDAコードを読み込みAMD Instinctで利用できるコードに変換するツールなどが用意されており、容易にAMD Instinct向けのソフトウェアを作成可能になる。今回、ROCm 3.0では未完成だったHPC向けアプリケーションへの対応などがなされ、より多くの用途にAMD Instinctを利用できるようになるとのことだ。
AMD Instinct MI100は、今年末までの出荷開始が予定されており、AMDのチャネルパートナー経由などで販売される。また、今後数カ月以内にDell、HP、GIGABYTE、SupermicroなどのOEMメーカーのシステムに組み込まれても販売される計画だ。
Zen3になった第3世代EPYCは今四半期中に出荷開始
AMDは同社のデータセンター/HPC向けのCPUとなるAMD EPYCに関する情報もアップデートした。
それによれば、11月に出荷が開始された第4世代Ryzen(Ryzen 5000シリーズ)に採用されているCPUアーキテクチャ「Zen3」を採用した次世代のAMD EPYCがまもなく出荷開始されるという。
Zen3を採用したEPYCは「第3世代EPYC」という製品ブランドになり、第4四半期中に選ばれたHPCユーザーとクラウド事業者向けに出荷が開始されるという。正式な発表は来年(2021年)の第1四半期が計画されている。
Intelも今年中に、2ソケット向けの次世代製品「Ice Lake-SP」の発表を計画しており、年末から来年にかけてデータセンター/HPC向けのプロセッサ競争がより激しくなりそうだ。