ニュース

第4世代Xeon SP、新命令AMXを活用するとDL推論性能が4.5~6倍に

IntelがVisionの展示会場で展示していた第4世代Xeon SP(HBM2なし版)

 Intelは、5月10日~5月11日(現地時間、日本時間5月10日~5月12日)に同社のプライベートイベントとなる「Intel Vision」(インテル・ビジョン)をアメリカ合衆国テキサス州ダラスフォートワース空港近くの「Marriott Gaylord Texan & Convention Center」で開催した。

 この中でIntelは「Workload-driven Performance with the Upcoming Next Gen Intel Xeon Scalable Processor (Sapphire Rapids)」という技術セミナーを行ない、同社が開発コードネームSapphire Rapidsの名称で開発してきた「第4世代Xeon Scalable Processor」(以下第4世代Xeon SP)の性能に関して説明を行なった。

 現時点では第4世代Xeon SPの正式発表がされていないこともあり、技術的な詳細(CPUコア数など)に関しては触れられないというちょっと風変わりなセミナーになったが、新命令セットAMX(Advanced Matrix eXtensions)を活用すると、DLの推論が4.5~6倍になると説明した。

ウェハ、通常版のパッケージ、HBM2版パッケージなどが展示されたが正式発表はなしの第4世代Xeon SP

第4世代Xeon SPの概要だが正式発表前ということで具体的な説明はなし

 Intel 副社長 兼 Xeon事業部 事業部長 ドン・カミンガム氏は、同社が開発コードネームSapphire Rapidsの名称で開発してきた第4世代Xeon SPの主に性能面に関して説明した。

 こうした新しい製品の性能について触れる時には、通常であれば前段でアーキテクチャの改良点や、新機能の紹介といった新製品の強みを概説し、その後その改良点や新機能が性能にどのようにつながっていくのかということを説明するのが一般的。しかし、今回のセミナーではそうした前段はすっ飛ばされて、ほぼいきなり性能の説明に入っていった。

HBM2を搭載した第4世代Xeon SP

 そうした形になったのは、第4世代Xeon SPがOEMメーカーへの出荷は3月から開始されているものの、Intelのフォーマルな製品発表というのはまだ行なわれていないことが影響している。

 第4世代Xeon SPは、4つのタイル(ダイ)がEMIB(2.5Dのスタッキング技術)を利用して1つのパッケージに封入されていること、PCI Express 4.0やCXL 1.1などのI/Oに対応していること、DDR5メモリとHBM2をパッケージ上に封入したモデルが用意されていることなどの概要は公開されているが、多くのエンドユーザーにとって注目されるであろうCPUコア数などの情報はまだ公開されていない。そうした情報はCPUの正式発表と同時に公開されるのが一般的なので、非公開情報としてこうした形になったと考えるのが妥当だろう。

 なお、今回Intelは第4世代Xeon SPを発表しなかったが、そのタイルのウェハとHBM2なしの通常版、HBM2が搭載されたHBM2版のパッケージを公開してブースに展示している。既に3月から出荷が開催されていることを考えると、その正式発表もさほど遠い時期ではないと考えられるが……いずれにせよ今回のVisionでは正式発表時期などに関しては何もアナウンスはなかった。

新命令セットのAMXを利用するとAI/DL性能が大きく向上、学習でEPYCはもちろんA100を上回るとIntelは主張

Intel 副社長 兼 Xeon事業部 事業部長 ドン・カミンガム氏

 カミンガム氏が紹介したのはAI/ディープラーニングの性能。Intelは第4世代Xeonから、新しい拡張命令セットとなるAMX(Advanced Matrix eXtensions)をサポートすると明らかにしている。

 AMXはAI/ディープラーニングにフォーカスした新しい命令セットが追加されており、TMUL(Tile Matrix multiply Unit)と呼ばれる演算器を利用して効率よくAI/ディープラーニング関連の演算を可能にする。

ResNet34の推論処理

 現行の第3世代Xeon SPと比較すると、AMXの新命令を使った第4世代XeonはResNet34の推論処理で、INT8を利用した演算で4.5倍、BF16(Bflot16)を利用した演算で6倍の性能を発揮するという。

MLPerfDeepCAM学習プログラム

 MLPerfDeepCAM学習プログラムを利用した学習時の性能では、AMD EPYC7763(FP32/AVX2)を1とすると、AMX/FP32、FP16の第4世代Xeon SPは2.8倍の性能を発揮し、NVIDIA A100(80GB)をも上回ると説明した。

 このように、AI/ディープラーニングに特化したAMXを上手く使えることができれば、推論でも学習でも大きな性能向上が期待できることになる。

DSAを利用した性能

 また、第4世代Xeon SPではDSA(Data Streaming Accelerator)というアクセラレータが搭載されており、ソフトウェアがそれを利用することで、データ転送のスループットが70%向上し、レイテンシは45%下がるという効果があると説明された。

マイクロサービスの性能

 このほかにも、マイクロサービスを利用した場合の性能に関しても説明され、第2世代Xeonから約69%向上していると説明された。