笠原一輝のユビキタス情報局

第3世代Xeon SPは競合より最大1.5倍高速。40コア化やメモリ/キャッシュも改善

第3世代Xeon SPのウェハ。40個のCPUが並んでいるそれぞれのダイはなかなか壮観(提供:Intel)

 Intelは4月6日の8時(米国時間)から記者会見を開催し、データセンター向けの第3世代Xeon Scalable Processors(以下第3世代Xeon SP)の1~2ソケット版を発表した。開発コードネーム「Ice Lake」ないしは「Ice Lake-SP」で呼ばれてきた同製品は、同社のデータセンター向け製品としてはじめて10nmプロセスルールに微細化されたものとなる。

 競合のAMDは、Zenマイクロアーキテクチャに基づいた初代EPYCを2017年にリリース。2019年には7nmで製造されるZen 2ベースの第2世代EPYCを投入して、歴史上はじめて製造プロセスルールの世代でIntelを追い越し、じょじょに市場シェアを拡大しつつある。

 さらに3月には、マイクロアーキテクチャをZen 3へと進化させた第3世代EPYCをリリースし、Intelを追い上げる体制を整えている。そうしたなかでの同社のカウンターが今回の第3世代Xeon SPとなる。

 第3世代Xeon SPの詳細を見ていくと、CPUコアは従来製品の28コアから40コアに増やしながら、パッケージのなかに大きなダイが1つのモノリシックダイ構造を維持しつつ、キャッシュやメモリを最適化していき、パッケージ全体で性能を上げていく設計が見えてくる。同時にAVX512の新しい命令セットを導入することで、暗号化や復号化時の性能も大きく引き上げている。

 本レポートでは、第3世代Xeon SPの内部アーキテクチャや、その性能などについて解説していきたい。Intelによれば、第3世代EPYCと比較してディープラーニング/マシンラーニングの推論時に最大1.5倍の性能を発揮するという。

モノリシックダイという骨格を維持したまま40コアを実現

第3世代Xeon SPのパッケージ。Socket P+(LGA4189)で利用可能で、第2世代Xeon SPとはパッケージやCPUソケットが異なるため、新しいマザーボードが必要になる(提供:Intel)

 今回Intelが発表した第3世代Xeon SPは、開発コードネームこそIce Lakeと、2019年発表のクライアントPC向け第10世代Coreと同じだが、まったく別のダイとなる。クライアントPC向けと同じく10nmプロセスルールで製造される製品だ。

 第3世代Xeon SPとしては、すでに2020年6月に開発コードネーム「Cooper Lake」が発表されている。Cooper Lakeは、14nmプロセスルールで製造され、CPUのマイクロアーキテクチャは前世代と同じSkylake世代を踏襲した製品で、最大28コアまでとなる。しかし、CPUソケットはSocket P+(LGA4189)に変更されており、4~8ソケットまでをカバーする製品と位置づけられている。

 それに対して、1~2ソケットの製品は第2世代Xeon SP(Cascade Lake-SP)のまま据え置かれていたが、今回Ice Lakeベースの第3世代Xeon SPの登場により、ようやく最新の製品へと切り替わることになる。

 なお、CPUソケットはCooper Lakeと同じSocket P+(LGA4189)で、第2世代Xeon SP世代のSocket P(LGA3647)とは互換性がないため、新しいマザーボードが必要になる。

 今回発表された第3世代Xeon SPのSKU構成は以下のとおりだ。

第3世代Xeon SPのSKU
グレードSKUコア数ベースクロックターボ時最大クロック(シングル)ターボ時最大クロック(マルチ)L3キャッシュTDPOptane Persistent Memory対応SGX Enclave容量価格(米ドル)
Platinum8380402.3GHz3.4GHz3GHz60MB270W512GB8,099ドル
8368Q382.6GHz3.7GHz3.3GHz57MB270W512GB6,743ドル
8368382.4GHz3.4GHz3.2GHz57MB270W512GB6,302ドル
8362322.8GHz3.6GHz3.5GHz48MB265W64GB5,448ドル
8360Y362.4GHz3.5GHz3.1GHz54MB250W64GB4,702ドル
8358322.6GHz3.4GHz3.3GHz48MB250W64GB3,950ドル
8358P322.6GHz3.4GHz3.2GHz48MB240W8GB3,950ドル
8352M322.3GHz3.5GHz2.8GHz48MB185W64GB3,864ドル
8352S322.2GHz3.4GHz2.8GHz48MB205W512GB4,046ドル
8352V362.1GHz3.5GHz2.5GHz54MB195W8GB3,450ドル
8352Y322.2GHz3.4GHz2.8GHz48MB205W64GB3,450ドル
8351N362.4GHz3.5GHz3.1GHz54MB225W64GB3,027ドル
Gold6354183GHz3.6GHz3.6GHz39MB205W64GB2,445ドル
6348282.6GHz3.5GHz3.4GHz42MB235W64GB3,072ドル
6346163.1GHz3.6GHz3.6GHz36MB205W64GB2,300ドル
6342242.8GHz3.5GHz3.3GHz36MB230W64GB2,529ドル
6338242GHz3.2GHz2.6GHz48MB205W64GB2,612ドル
6338N322.2GHz3.5GHz2.7GHz48MB185W64GB2,795ドル
6338T242.1GHz3.4GHz2.7GHz36MB165W64GB2,742ドル
6336Y242.4GHz3.6GHz3GHz36MB185W64GB1,977ドル
633483.6GHz3.7GHz3.6GHz18MB165W64GB2,214ドル
6330282GHz3.1GHz2.6GHz42MB205W64GB1,894ドル
6330N282.2GHz3.4GHz2.6GHz42MB165W64GB2,029ドル
6326162.9GHz3.5GHz3.3GHz24MB185W64GB1,300ドル
6314U322.3GHz3.4GHz2.9GHz48MB205W64GB2,600ドル
6312U242.4GHz3.6GHz3.1GHz36MB185W64GB1,450ドル
5320262.2GHz3.4GHz2.8GHz39MB185W64GB1,555ドル
5320T202.3GHz3.5GHz2.9GHz30MB150W64GB1,727ドル
5318N242.1GHz3.4GHz2.7GHz36MB150W64GB1,375ドル
5318S242.1GHz3.4GHz2.6GHz36MB135W512GB1,667ドル
5318Y242.1GHz3.4GHz2.6GHz36MB165W64GB1,273ドル
5317123GHz2.6GHz3.4GHz18MB150W64GB950ドル
5315Y83.2GHz3.6GHz3.5GHz12MB140W64GB895ドル
Silver4316202.3GHz3.4GHz2.8GHz30MB150W-8GB1,002ドル
4314162.4GHz3.4GHz2.9GHz24MB135W8GB684ドル
4310122.1GHz3.3GHz2.7GHz18MB120W-8GB501ドル
4310T102.3GHz3.4GHz2.9GHz15MB105W-8GB555ドル
4309Y82.8GHz3.6GHz3.4GHz12MB105W-8GB501ドル

【お詫びと訂正】初出時、上の表の一部に誤りがありました。お詫びして訂正させていただきます。

 第3世代Xeon SP(以下とくに断りがない場合はIce Lakeベース)のアーキテクチャ上の特徴を一言で言うなら、CPUコア、メモリコントローラ、I/Oなどを接続するインターコネクトが初代Xeon SP、第2世代Xeon SPと同じメッシュ構造なのを例外として、ほとんどすべての部分に手が入っているということにある。

 ただし、EPYCが採用しているようなチップレット、あるいはMCM(Multi-Chip Module)といったパッケージの上に複数のダイを並べるパッケージング技術は採用されていない。

 EPYCではチップレットを採用することで、8コアのCPUダイを8つ、I/Oダイ(IOD)を1つの合計9つを混載して、最大64コアというスペックを実現している。EPYCが多くのコアを実装し、マルチコア時に高い性能を実現できる理由の1つだ。

 一方、第3世代Xeon SPでは、あくまでモノリシックダイとして製造し、パッケージのなかにCPUのダイを1つだけ搭載し、USBなどのI/Oはチップセット(PCH)としてマザーボード上に実装するかたちとなっており、構造は従来と同じだ。

 しかし、今回製造プロセスルールが微細化されたことにより、同じようなダイサイズ(Intelはダイサイズなどを明らかにしていない)であっても、実装できるCPUコアの数を最大40コアまで増やすことができるようになった。

CPUはSunny CoveとなりIPCが大きく向上。暗号化関連のAVX-512拡張命令も追加

第3世代Xeon SPのハイレベルの概要(出典:Intel)

 CPUのマイクロアーキテクチャは、Intelのデータセンター向け製品としてははじめて、新世代のCPUマイクロアーキテクチャとなるCove系に切り替わっている。採用されているのはクライアントPC向けのIce Lakeと同じ「Sunny Cove」になる。

 初代Xeon SP(Skylake-SP)、第2世代Xeon SP(Cascade Lake-SP)、そして4~8ソケット用の第3世代Xeon SP(Cooper Lake)のいずれも、クライアントPC向けに2015年より導入されたSkylakeをベースとするCPUが採用されてきた。

 これは14nm向けのCPUマイクロアーキテクチャがSkylake(および改良版のKaby Lake)しかなかったためで、初代Xeon SPに採用されてからじつに4年近く利用されてきた。

CPUはSunny Coveコアを採用(出典:Intel)

 今回第3世代Xeon SPに採用されたSunny Coveコアでは、CPUコア内部のフロントエンド(分岐予測やデコーダなど)も、内部の実行ユニットも大幅に改善されている。前世代と比較すると、Out-Of-Orderのウィンドウが224から352に、インフライトのロード/ストアが72+56から128+72に、スケジューラのエントリー数が97から160に、整数と浮動小数点のレジスタファイルが180+168から280+224になるなど改良されている。

 また、キャッシュ階層の改良も大きな改善点の1つで、従来世代と比較すると以下のように拡張されている。

第2/第3世代 Xeon SPのコアあたりのキャッシュ
第2世代Xeon SP(Cascade Lake)第3世代Xeon SP(Ice Lake)
L1命令32KB32KB
L1データ32KB48KB
L2キャッシュ1MB1.25MB
L3キャッシュ1.375MB1.5MB

 L1データと、L2キャッシュが増やされているほか、ソケット内のCPUすべてが共有するL3キャッシュもコアあたりの容量が1.25MBから1.5MBになっており、40コア製品ではL3キャッシュが全体で60MBになるなど総容量も増加している。

 こうした内部的な改善によりIPCが大きく向上している。Intelによれば、同じ28コアの製品同士で比較すると、従来世代と比較して約20%改善しているという。

IPCは前世代と比較して20%向上している(出典:Intel)
AVX-512の新しい命令セットが追加されている(出典:Intel)

 さらに、CPUの命令セットにも拡張が入っている。Intelは初代Xeon SPにおいてSIMDの拡張命令を512bitで処理できるAVX-512という命令セットを導入している。第2世代Xeon SPではその拡張としてVNNI(Vector Neural Network Instructions)を導入し、従来はFP32(32bitの浮動小数点演算)を利用して行なっていたマシンラーニング/ディープラーニングの推論処理をINT8に置き換え、性能を向上させる命令セット(Intel DL Boost)を追加した。

 今回の第3世代XeonでもAVX-512の拡張命令がいくつか追加されているが、多くは暗号化および復号化に利用する命令セットとなる。Vector CLMUL、Vector AES、VPPMADD52、SHA-NI、GNFI(Galois Field New Instructions)などが該当し、それらを利用して暗号化や複合化を行なうことで、第2世代Xeon SPに比べて大きく性能を向上させることができる。

メモリコントローラの8チャネル化、UPIの高速化、PCI Express 4.0 64レーンなどI/O周りも大幅に強化

メモリやI/Oの強化ポイント、新たに8チャネルのメモリコントローラやPCI Express 4.0/64レーンに対応するなど強化されている(出典:Intel)

 第3世代Xeon SPではCPUだけでなく、メモリコントローラ、CPUとCPU間のインターコネクトであるUPI、さらにはストレージやEthernetを接続するためのI/Oコントローラも強化されている。

 メモリコントローラは、第2世代Xeon SPでは1ソケットあたり最大6チャネル構成になっていた。しかし、第3世代Xeon SPでは8チャネルに増えており、対応メモリをDDR4-3200まで強化したことで、帯域幅も向上している。

 また、ソケットあたりの最大メモリ容量も増加しており、第2世代Xeon SPではDDRメモリだけで3TB、Optane Persistent Memoryとのミックスで4.5TBまでとなっていたが、第3世代Xeon SPではそれぞれ4TB、6TBまで利用可能になっている。

 UPIも強化しており、第2世代Xeon SPでは3ポートそれぞれが10.4GT/sの速度を実現していたが、第3世代Xeon SPでは3ポートそれぞれの速度を11.2GT/sへと引き上げている。

第2世代Xeon SPと第3世代Xeon SPの比較(出典:Intel)
モノリシックダイやUPIなどによりAMDに比べてリモートソケットのキャッシュレイテンシで有利に(出典:Intel)
同じくメモリレイテンシでもAMDに比べて有利に(出典:Intel)

 Intelによれば、競合の第3世代EPYCと比較した場合のDRAMのレイテンシは、CPUに近いところに接続されているメモリに対してアクセスする場合はほとんど変わりないが、インターコネクトの先に接続されているリモートソケット(もう1つのCPUソケット)のメモリにアクセスする場合には、第3世代EPYCが191nsなのに対して、第3世代Xeonは139nsと大きな差があると説明している。

 同じことはキャッシュのレイテンシにもいえ、第3世代EPYCがリモートソケットにあるキャッシュにアクセスする場合が209nsなのに対して、第3世代Xeonは118nsに過ぎないという。つまり、インターコネクトやCPUのメッシュ構造のインターコネクトなどにより、システム全体のキャッシュやメモリのレイテンシでは第3世代Xeonが有利だということだ。

 また、PCI Express 4.0に対応したのも大きな改良ポイントだ。第2世代Xeon SPではPCI Express 3.0までの対応で、ソケットあたり48レーンになっていたが、第3世代ではPCI Express 4.0に対応し、かつソケットあたり64レーンまで増加している。

 これにより、2ソケットのシステムでは最大128レーンが利用できることになり、EthernetやSSDなどといったPCI Express 4.0への対応で性能を引き上げられる機器を接続する場合に大きな効果を発揮する。

 こうした機能やスペックの変遷を2010年にリリースされたXeon 5600番台(Westmere-EP)から一覧にすると以下のようになる。

Xeonの各世代の進化
ブランド名Xeon 5600番台Xeon E5Xeon E5 v2Xeon E5 v3Xeon E5 v4
開発コードネームWestmere-EPSandy Bridge-EPIvy Bridge-EPHaswell-EPBroadwell-EP
リリース年2010年2012年2013年2014年2016年
製造プロセスルール32nm32nm22nm22nm14nm
CPUコア(最大)68121822
ダイ構成(HCC、MCC、LCC)6815、10、618、12、824、15、10
パッケージあたりのダイ数11111
L2キャッシュ(コアあたり)256KB256KB256KB256KB256KB
LLCキャッシュ(コアあたり)2MB2.5MB2.5MB2.5MB2.5MB
LLCキャッシュ(ダイあたり最大)12MB20MB30MB/20MB/15MB45MB/30MB/20MB55MB/37.5MB/25MB
コアマイクロアーキテクチャNehalem世代Sandy Bridge世代Sandy Bridge世代(改良版)Haswell世代Haswell世代(改良版)
コア間インターコネクト-リングリングリングリング
CPUソケットSocket B(LGA1366)Socket R(LGA2011)Socket R(LGA2011)Socket R3(LGA2011v3)Socket R3(LGA2011v3)
最大ソケット22222
最大メモリ容量288GB384GB768GB1.5TB1.5TB
メモリDDR3-1333DDR3-1600DDR3-1866DDR4-2133DDR4-2400
Optane DC Persistent Memory対応-----
メモリチャネル数(CPUソケットあたり)34444
命令セットSSE4.2SSE4.2/AVXSSE4.2/AVXSSE4.2/AVX2SSE4.2/AVX2/TSX
QPI/UPI(ダイあたり)2x最大6.4GT/s2x最大8GT/s2x最大8GT/s2x最大9.6GT/s2x最大9.6GT/s
PCI Express(CPU側)PCI Express 2.0(チップセット側)PCI Express 3.0PCI Express 3.0PCI Express 3.0PCI Express 3.0
PCI Expressレーン数(CPU側/ソケットあたり)36(チップセット側)40404040
DMI-DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)
チップセット5500(Tyrusburg)C600(Patsburg)C600(Patsburg)C610(Wellsburg)C610(Wellsburg)
Xeon-SPの各世代の進化
ブランド名Xeon SP第2世代Xeon SP第3世代Xeon SP(4-8S)第3世代Xeon SP(1-2S)
開発コードネームSkylake-SPCascade Lake-SPCooper LakeIce Lake
リリース年2017年2019年2020年2021年
製造プロセスルール14nm14nm14nm10nm
CPUコア(最大)28562840
ダイ構成(HCC、MCC、LCC)28、18、1028、18、1028、18、10非公表
パッケージあたりのダイ数11(パッケージ)/2(BGA)11
L2キャッシュ(コアあたり)1MB1MB1MB1.25MB
LLCキャッシュ(コアあたり)1.375MB1.375MB1.375MB1.5MB
LLCキャッシュ(ダイあたり最大)38.5MB/24.75MB/13.75MB38.5MB/24.75MB/13.75MB38.5MB/24.75MB/13.75MB最大60MB
コアマイクロアーキテクチャSkylake世代Skylake世代Skylake世代Sunny Cove
コア間インターコネクトメッシュメッシュメッシュメッシュ
CPUソケットSocket P(LGA3647)Socket P(LGA3647)/BGA(5903ball、2ダイ構成)Socket P+(LGA4189)Socket P+(LGA4189)
最大ソケット2/4/82/4/84/82
最大メモリ容量1.5TB4.5TB(Optane DCPM利用時)4.5TB(Optane DCPM利用時)4TB(DDRのみ)/6TB(DDR+Optane)
メモリDDR4-2666DDR4-2933DDR4-3200DDR4-3200
Optane DC Persistent Memory対応-○(200シリーズ)○(200シリーズ)
メモリチャネル数(CPUソケットあたり)66/1268
命令セットSSE4.2/AVX2/TSX/AVX512SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI)SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16)SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16)/Intel Crypt Accelerator
QPI/UPI(ダイあたり)3x最大10.4GT/s3x最大10.4GT/s6x最大10.4GT/s3x最大11.2GT/s
PCI Express(CPU側)PCI Express 3.0PCI Express 3.0PCI Express 3.0PCI Express 4.0
PCI Expressレーン数(CPU側/ソケットあたり)64(MCC/LCCは48)484864
DMIDMI/Gen3(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)
チップセットC620(Lewisburg)C620(Lewisburg)C620A(Lewisburg R)C620A(Lewisburg R)

前世代比1.46倍の性能。ディープ/マシンラーニングの推論ではEPYCの1.5倍、NVIDIA A100の1.3倍を実現

過去のXeon SP/Xeon E5などとの性能比較、右端が平均(出典:Intel)

 こうした構造になっている第3世代Xeon SPだが、性能は前世代と比較して大きく引き上げられている。

 Intelによれば、SPECrate2017_int_base(整数演算)、SPECrate2017_fp_base(浮動小数点演算)、Stream Triad(メモリ帯域)、Linpackなどの業界標準ベンチマークでの相乗平均では、トップSKUの第3世代Xeon SP(Xeon Platinum 8380)が第2世代Xeon SP(Xeon Platinum 8280)の1.46倍となった。

 同様に、各世代のトップSKUと比較すると、初代Xeon SPのXeon Platinum 8180(2017年発売)とで最大1.54倍、Xeon E5 2699 v4(2016年発売)とで最大2.65倍、Xeon E5 2699 v3(2014年発売)とでは最大3.1倍となっている。

ディープラーニング/マシンラーニングの推論処理で、20の一般的なワークロードの相乗平均で比較した場合、AMDの第3世代EPYCと比較して最大1.5倍、NVIDIA A100 GPUと比較して最大1.3倍(出典:Intel)
第3世代Xeon SPと第3世代EPYCの拡張命令への対応比較。Intel側は新しいAVX-512とその拡張命令に対応しているが、AMDはほとんど対応していないため、ソフトウェアのサポートが進むほどIntelが有利に(出典:Intel)
第3世代Xeon SPと第3世代EPYCの比較データ(出典:Intel)

 競合製品との比較では、第3世代EPYCとの詳細な比較データを公開している。ディープラーニング/マシンラーニングの推論処理について、20の一般的なワークロードの相乗平均で比較した場合、第3世代Xeon SPはEPYC 7763に対して最大1.5倍、NVIDIA A100 GPUに対して最大1.3倍の性能を発揮すると説明している。

 ただし、これらの処理にはVNNIやBfloat16などといった、Intel側のみが対応しているAVX-512の命令セットが利用されていることが多いと考えられる。

 実際、第3世代EPYCはAVX-512やその拡張命令には対応しておらずAVX2までのサポートとなっており、IntelがXeon Platinum 8380(40コア)とAMD EPYC 7763(64コア)の比較データとして公開したベンチマーク結果は、いずれもAVX-512やDL BoostなどAMD側が対応していない拡張命令セットを利用したものだった。この点は考慮しておく必要があるだろう。

 なお、今回の発表ではSPECrate2017_int_base(整数演算)、SPECrate2017_fp_base(浮動小数点演算)のような、データセンター向けCPUで一般的に比較に利用されるベンチマークテストを利用して比較したデータは公開されていない。

 おそらく、第3世代Xeonが市場に出て購入できるようになると、AMD側からの比較データが公開されることになると思うので、その比較でより一般的な性能差が明らかになってくるのではないだろうか。