ニュース

Intel、HBMメモリ内蔵で大幅性能向上のHPC向けCPU/GPU

Xeon CPU Maxシリーズ

 Intelは、HPC向けCPU「Xeon CPU Max」シリーズ、およびGPU「Data Center GPU Max」シリーズを発表した。前者はSapphire Rapids with High Bandwidth Memory、後者はPonte Vecchioのコードネームで呼ばれていた製品となる。

Xeon CPU Maxシリーズ

 Xeon CPU Maxシリーズは、最大56コアのパフォーマンスコアを搭載するHPC向けCPU。x86 CPUとしては世界初を謳う、最大64GB(16GB×4)のHBM2e(High Bandwidth Memory)メモリを搭載し、帯域幅は最大で1TB/sを実現しており、CPUコアあたりのメモリ性能を大幅に高めた。CPUコアにはGolden Coveが採用されており、TDPは最大350W。

Xeon CPU Maxシリーズの特徴

 既存のDIMMについては、8チャネルのDDR5-4800に対応している。一方で、外部にDIMMを持たないシステムを構築でき、デュアルソケット構成時には、DIMMを搭載せずとも最大128GBのHBM2eメモリを確保できる。

 メモリは、HBMのみを利用して高い性能と低消費電力化を図る「HBM Only Mode」、HBMとDIMMの同時運用で大容量メモリを実現する「HBM Flat Mode」、HBMをDIMMのキャッシュとして活用し大容量メモリ環境での性能向上を図る「HBM Caching Mode」の3種類の動作モードを用意し、用途に応じて構成を選択できる。なお、HBM Flat Modeについては性能の最適化のためコード改変が必要だとしている(それ以外は既存のままで恩恵を受けられる)。

x86 CPUとしては初のHBM搭載製品だという
Xeon CPU Maxシリーズの構成。4つのコンピュートタイルはEMIBでパッケージングされる
大規模データセットを用いるワークロードなどを想定したコア設計

 また、アクセラレータ周りは、従来のAVX-512やIntel Deep Learning Boost(DL Boost)に加え、「Intel Advanced Matrix Extensions(AMX)」や「Intel Data Streaming Accelerator(DSA)」を新たに搭載する。Intel AMXは、新たなレジスタのTilesと行列乗算向け新命令セットのTMULで構成され、AI関連の演算を大幅に高速化。Intel DSAは、メモリへのデータ移動作業をCPUに代わって行なうことで、CPUの演算能力を確保する。

 加えて、HBMにあわせたCPUのレイテンシや帯域幅の最適化を図ったクラスタリングへの対応や、ハードウェアプリフェッチアルゴリズムの再構築をはじめとしたハードウェア側の改良も行なっている。

 同社の検証によれば、自社のXeon 8380と比べて最大5.3倍、競合のAMD EPYC 7773Xと比べても最大5倍の性能を発揮できるという。

Intel Advanced Matrix Extensions(AMX)
Intel Data Streaming Accelerator(DSA)
ハードウェアの最適化も実施
クラスタリングもHBMにあわせて最適化
競合のEPYC 7773Xと比べても最大5倍の性能を発揮
各種ワークロードにおけるEPYC 7773Xとの比較

Data Center GPU Maxシリーズ

Max Series 1100 GPU

 Data Center GPU Maxシリーズは、最大128基のXeコアを搭載するHPC向けGPU。ラインナップは、PCIe拡張カード(2スロット厚)形状の「Max Series 1100 GPU」、OAMフォームファクタの「Max Series 1350 GPU」および「Max Series 1550 GPU」を用意する。

 Xe-HPCアーキテクチャをベースとしており、2スタック構成で最大128基のXeコアおよびRay Tracing Unit、8基のHBM2eコントローラなどを備え、FP64/32で52TFLOPS、XMX Float 32で419TFLOPS、XMX BF16/FP16で839TFLOPSを発揮する。1つのXeコアは8基のベクターエンジンと8基Xe Matrixエンジンで構成される。

 L2キャッシュ容量が2スタック合計で408MBと大きい点も特徴で、レジスタファイルとL1キャッシュには64MBずつを用意。加えてHBMメモリを128GB備えている。これにより、性能向上や消費電力の削減を図っている。

Data Center GPU Maxシリーズの特徴
Xeコアの構成
2スタック時のスループット
大容量キャッシュで性能向上や消費電力を削減
L2キャッシュの大容量化による性能向上

 また、同社のレイトレーシング用ライブラリ「Intel Embree」にも対応し、Ray Tracing Unitなどのハードウェアを活用できる。そのほか、SPMD/SIMTおよびSIMDの両サポートによるコード移行のしやすさ、GPUとGPUを接続できるXe Linkによる拡張性なども備えた。

 各製品の主な仕様は、Max Series 1100の場合、Xeコアが56基、メモリが48GB HBM2e、TDPが300W。Max Series 1350の場合、Xeコアが112基、メモリが96GB HBM、450W TDP。MMax Series 1550 の場合、Xeコアが128基、メモリが128GB HBM、TDPが600Wとなる。

レイトレーシングをサポート
Intel Embreeにも対応する
SPMD/SIMTおよびSIMDの両方のサポート
Xe LinkによるGPU同士の接続も可能

 そのほか今回の発表にあわせ、同社はHPC向けCPUおよびGPUに関する今後のロードマップを更新。HPC向けGPUの次期製品としてコードネーム「Rialto Bridge」を計画していると公表した。最大160基のXe-HPCコアを搭載し、TDPは最大800W(OAM、液冷)となる見込み。

ロードマップを更新
HPC向けGPUの次期製品はコードネーム「Rialto Bridge」