ニュース

NVIDIA、PCIe版Ampere GPU「A100 PCIe」を投入

NVIDIA A100 PCIe

 NVIDIAは22日、同社のデータセンター向けGPUとしてPCI Express拡張カード版の「NVIDIA A100 PCIe」を発表した。これにともない、A100 PCIeを搭載するサーバーが、メーカー各社より今夏から年末にかけて順次50製品以上が投入される。

 既報の記事(NVIDIA、7nmプロセスのAmpere採用GPU「A100」。Voltaから20倍性能向上)のとおり、NVIDIA A100はAmpereアーキテクチャをベースとする初のGPUで、TSMCによる7nmプロセス技術を採用し、前世代のVoltaから大きく性能が向上した第3世代のTensorコアを搭載している。

 今回、基板状のA100 SXMに加え、PCI Express拡張カード版の「A100 PCIe」が追加。すでに発表済みの高性能サーバー「HGX A100」に4-wayまたは8-way構成で実装されているもので、FP32の学習処理で312TFLOPS、INT8の推論処理で1,248TOPS、FP64のHPC処理で19.5TFLOPSを実現。学習および推論処理についてはVoltaの20倍の性能を備えている。

NVIDIA A100 SXM

 A100 PCIeを採用するサーバーとしては、ASUS、Dell、Lenovo、富士通、GIGABYTE、Supermicroなどが用意されており、A100によるAIワークロードの動作を保証するNGC-Ready認証システムも導入。同認証システムはGPU最適化AIソフトウェアであるNGC registryでテストされる。

【表】NVIDIA A100シリーズのスペック
A100 SXM4 for NVIDIA HGXA100 PCIe GPU
アーキテクチャAmpere
プロセスルール7nm(TSMC)
倍精度性能FP64 : 9.7TFLOPS
FP64 Tensor Core : 19.5TFLOPS
単精度性能FP32 : 19.5TFLOPS
Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS)
半精度性能312TFLOPS(Structural sparsity有効時624TFLOPS)
Bfloat16312TFLOPS(Structural sparsity有効時624TFLOPS)
整数性能INT8 : 624TOPS(Structural sparsity有効時1,248TOPS)
INT4 :1,248TOPS(Structural sparsity有効時2,496TOPS)
GPUメモリ40GB HBM2(Samsung製)
メモリ帯域1.6TB/s
ECC有効
インターコネクトPCIe 4.0 : 64GB/s
第3世代NVLink : 600GB/s(HGX A100サーバーボード利用時)
PCIe 4.0 : 64GB/s
第3世代NVLink : 600GB/s(2GPUでのNVLink Bridge利用時)
フォームファクタHGX A100(4/8 SXM 3D Packaging GPU)PCIe 4.0 : 64GB/s
第3世代NVLink : 600GB/s(2GPUでのNVLink Bridge利用時)
マルチインスタンスGPU(MIG)最大7GPU
最大消費電力400W250W
実アプリ性能100%90%
熱処理方法パッシブ
APICUDA、DirectCompute、OpenCL、OpenACC