笠原一輝のユビキタス情報局

第3世代Xeon SPは競合より最大1.5倍高速。40コア化やメモリ/キャッシュも改善

笠原一輝

2021年4月7日 00:00

第3世代Xeon SPのウェハ。40個のCPUが並んでいるそれぞれのダイはなかなか壮観(提供:Intel)

　Intelは4月6日の8時(米国時間)から記者会見を開催し、データセンター向けの第3世代Xeon Scalable Processors(以下第3世代Xeon SP)の1～2ソケット版を発表した。開発コードネーム「Ice Lake」ないしは「Ice Lake-SP」で呼ばれてきた同製品は、同社のデータセンター向け製品としてはじめて10nmプロセスルールに微細化されたものとなる。

　競合のAMDは、Zenマイクロアーキテクチャに基づいた初代EPYCを2017年にリリース。2019年には7nmで製造されるZen 2ベースの第2世代EPYCを投入して、歴史上はじめて製造プロセスルールの世代でIntelを追い越し、じょじょに市場シェアを拡大しつつある。

　さらに3月には、マイクロアーキテクチャをZen 3へと進化させた第3世代EPYCをリリースし、Intelを追い上げる体制を整えている。そうしたなかでの同社のカウンターが今回の第3世代Xeon SPとなる。

　第3世代Xeon SPの詳細を見ていくと、CPUコアは従来製品の28コアから40コアに増やしながら、パッケージのなかに大きなダイが1つのモノリシックダイ構造を維持しつつ、キャッシュやメモリを最適化していき、パッケージ全体で性能を上げていく設計が見えてくる。同時にAVX512の新しい命令セットを導入することで、暗号化や復号化時の性能も大きく引き上げている。

　本レポートでは、第3世代Xeon SPの内部アーキテクチャや、その性能などについて解説していきたい。Intelによれば、第3世代EPYCと比較してディープラーニング/マシンラーニングの推論時に最大1.5倍の性能を発揮するという。

モノリシックダイという骨格を維持したまま40コアを実現

第3世代Xeon SPのパッケージ。Socket P+(LGA4189)で利用可能で、第2世代Xeon SPとはパッケージやCPUソケットが異なるため、新しいマザーボードが必要になる(提供:Intel)

　今回Intelが発表した第3世代Xeon SPは、開発コードネームこそIce Lakeと、2019年発表のクライアントPC向け第10世代Coreと同じだが、まったく別のダイとなる。クライアントPC向けと同じく10nmプロセスルールで製造される製品だ。

　第3世代Xeon SPとしては、すでに2020年6月に開発コードネーム「Cooper Lake」が発表されている。Cooper Lakeは、14nmプロセスルールで製造され、CPUのマイクロアーキテクチャは前世代と同じSkylake世代を踏襲した製品で、最大28コアまでとなる。しかし、CPUソケットはSocket P+(LGA4189)に変更されており、4～8ソケットまでをカバーする製品と位置づけられている。

　それに対して、1～2ソケットの製品は第2世代Xeon SP(Cascade Lake-SP)のまま据え置かれていたが、今回Ice Lakeベースの第3世代Xeon SPの登場により、ようやく最新の製品へと切り替わることになる。

　なお、CPUソケットはCooper Lakeと同じSocket P+(LGA4189)で、第2世代Xeon SP世代のSocket P(LGA3647)とは互換性がないため、新しいマザーボードが必要になる。

　今回発表された第3世代Xeon SPのSKU構成は以下のとおりだ。

第3世代Xeon SPのSKU
グレード	SKU	コア数	ベースクロック	ターボ時最大クロック(シングル)	ターボ時最大クロック(マルチ)	L3キャッシュ	TDP	Optane Persistent Memory対応	SGX Enclave容量	価格(米ドル)
Platinum	8380	40	2.3GHz	3.4GHz	3GHz	60MB	270W	○	512GB	8,099ドル
	8368Q	38	2.6GHz	3.7GHz	3.3GHz	57MB	270W	○	512GB	6,743ドル
	8368	38	2.4GHz	3.4GHz	3.2GHz	57MB	270W	○	512GB	6,302ドル
	8362	32	2.8GHz	3.6GHz	3.5GHz	48MB	265W	○	64GB	5,448ドル
	8360Y	36	2.4GHz	3.5GHz	3.1GHz	54MB	250W	○	64GB	4,702ドル
	8358	32	2.6GHz	3.4GHz	3.3GHz	48MB	250W	○	64GB	3,950ドル
	8358P	32	2.6GHz	3.4GHz	3.2GHz	48MB	240W	○	8GB	3,950ドル
	8352M	32	2.3GHz	3.5GHz	2.8GHz	48MB	185W	○	64GB	3,864ドル
	8352S	32	2.2GHz	3.4GHz	2.8GHz	48MB	205W	○	512GB	4,046ドル
	8352V	36	2.1GHz	3.5GHz	2.5GHz	54MB	195W	○	8GB	3,450ドル
	8352Y	32	2.2GHz	3.4GHz	2.8GHz	48MB	205W	○	64GB	3,450ドル
	8351N	36	2.4GHz	3.5GHz	3.1GHz	54MB	225W	○	64GB	3,027ドル
Gold	6354	18	3GHz	3.6GHz	3.6GHz	39MB	205W	○	64GB	2,445ドル
	6348	28	2.6GHz	3.5GHz	3.4GHz	42MB	235W	○	64GB	3,072ドル
	6346	16	3.1GHz	3.6GHz	3.6GHz	36MB	205W	○	64GB	2,300ドル
	6342	24	2.8GHz	3.5GHz	3.3GHz	36MB	230W	○	64GB	2,529ドル
	6338	24	2GHz	3.2GHz	2.6GHz	48MB	205W	○	64GB	2,612ドル
	6338N	32	2.2GHz	3.5GHz	2.7GHz	48MB	185W	○	64GB	2,795ドル
	6338T	24	2.1GHz	3.4GHz	2.7GHz	36MB	165W	○	64GB	2,742ドル
	6336Y	24	2.4GHz	3.6GHz	3GHz	36MB	185W	○	64GB	1,977ドル
	6334	8	3.6GHz	3.7GHz	3.6GHz	18MB	165W	○	64GB	2,214ドル
	6330	28	2GHz	3.1GHz	2.6GHz	42MB	205W	○	64GB	1,894ドル
	6330N	28	2.2GHz	3.4GHz	2.6GHz	42MB	165W	○	64GB	2,029ドル
	6326	16	2.9GHz	3.5GHz	3.3GHz	24MB	185W	○	64GB	1,300ドル
	6314U	32	2.3GHz	3.4GHz	2.9GHz	48MB	205W	○	64GB	2,600ドル
	6312U	24	2.4GHz	3.6GHz	3.1GHz	36MB	185W	○	64GB	1,450ドル
	5320	26	2.2GHz	3.4GHz	2.8GHz	39MB	185W	○	64GB	1,555ドル
	5320T	20	2.3GHz	3.5GHz	2.9GHz	30MB	150W	○	64GB	1,727ドル
	5318N	24	2.1GHz	3.4GHz	2.7GHz	36MB	150W	○	64GB	1,375ドル
	5318S	24	2.1GHz	3.4GHz	2.6GHz	36MB	135W	○	512GB	1,667ドル
	5318Y	24	2.1GHz	3.4GHz	2.6GHz	36MB	165W	○	64GB	1,273ドル
	5317	12	3GHz	2.6GHz	3.4GHz	18MB	150W	○	64GB	950ドル
	5315Y	8	3.2GHz	3.6GHz	3.5GHz	12MB	140W	○	64GB	895ドル
Silver	4316	20	2.3GHz	3.4GHz	2.8GHz	30MB	150W	-	8GB	1,002ドル
	4314	16	2.4GHz	3.4GHz	2.9GHz	24MB	135W	○	8GB	684ドル
	4310	12	2.1GHz	3.3GHz	2.7GHz	18MB	120W	-	8GB	501ドル
	4310T	10	2.3GHz	3.4GHz	2.9GHz	15MB	105W	-	8GB	555ドル
	4309Y	8	2.8GHz	3.6GHz	3.4GHz	12MB	105W	-	8GB	501ドル

【お詫びと訂正】初出時、上の表の一部に誤りがありました。お詫びして訂正させていただきます。

　第3世代Xeon SP(以下とくに断りがない場合はIce Lakeベース)のアーキテクチャ上の特徴を一言で言うなら、CPUコア、メモリコントローラ、I/Oなどを接続するインターコネクトが初代Xeon SP、第2世代Xeon SPと同じメッシュ構造なのを例外として、ほとんどすべての部分に手が入っているということにある。

　ただし、EPYCが採用しているようなチップレット、あるいはMCM(Multi-Chip Module)といったパッケージの上に複数のダイを並べるパッケージング技術は採用されていない。

　EPYCではチップレットを採用することで、8コアのCPUダイを8つ、I/Oダイ(IOD)を1つの合計9つを混載して、最大64コアというスペックを実現している。EPYCが多くのコアを実装し、マルチコア時に高い性能を実現できる理由の1つだ。

　一方、第3世代Xeon SPでは、あくまでモノリシックダイとして製造し、パッケージのなかにCPUのダイを1つだけ搭載し、USBなどのI/Oはチップセット(PCH)としてマザーボード上に実装するかたちとなっており、構造は従来と同じだ。

　しかし、今回製造プロセスルールが微細化されたことにより、同じようなダイサイズ(Intelはダイサイズなどを明らかにしていない)であっても、実装できるCPUコアの数を最大40コアまで増やすことができるようになった。

CPUはSunny CoveとなりIPCが大きく向上。暗号化関連のAVX-512拡張命令も追加

第3世代Xeon SPのハイレベルの概要(出典:Intel)

　CPUのマイクロアーキテクチャは、Intelのデータセンター向け製品としてははじめて、新世代のCPUマイクロアーキテクチャとなるCove系に切り替わっている。採用されているのはクライアントPC向けのIce Lakeと同じ「Sunny Cove」になる。

　初代Xeon SP(Skylake-SP)、第2世代Xeon SP(Cascade Lake-SP)、そして4～8ソケット用の第3世代Xeon SP(Cooper Lake)のいずれも、クライアントPC向けに2015年より導入されたSkylakeをベースとするCPUが採用されてきた。

　これは14nm向けのCPUマイクロアーキテクチャがSkylake(および改良版のKaby Lake)しかなかったためで、初代Xeon SPに採用されてからじつに4年近く利用されてきた。

CPUはSunny Coveコアを採用(出典:Intel)

　今回第3世代Xeon SPに採用されたSunny Coveコアでは、CPUコア内部のフロントエンド(分岐予測やデコーダなど)も、内部の実行ユニットも大幅に改善されている。前世代と比較すると、Out-Of-Orderのウィンドウが224から352に、インフライトのロード/ストアが72＋56から128＋72に、スケジューラのエントリー数が97から160に、整数と浮動小数点のレジスタファイルが180+168から280+224になるなど改良されている。

　また、キャッシュ階層の改良も大きな改善点の1つで、従来世代と比較すると以下のように拡張されている。

第2/第3世代 Xeon SPのコアあたりのキャッシュ
	第2世代Xeon SP(Cascade Lake)	第3世代Xeon SP(Ice Lake)
L1命令	32KB	32KB
L1データ	32KB	48KB
L2キャッシュ	1MB	1.25MB
L3キャッシュ	1.375MB	1.5MB

　L1データと、L2キャッシュが増やされているほか、ソケット内のCPUすべてが共有するL3キャッシュもコアあたりの容量が1.25MBから1.5MBになっており、40コア製品ではL3キャッシュが全体で60MBになるなど総容量も増加している。

　こうした内部的な改善によりIPCが大きく向上している。Intelによれば、同じ28コアの製品同士で比較すると、従来世代と比較して約20%改善しているという。

IPCは前世代と比較して20%向上している(出典:Intel)

AVX-512の新しい命令セットが追加されている(出典:Intel)

　さらに、CPUの命令セットにも拡張が入っている。Intelは初代Xeon SPにおいてSIMDの拡張命令を512bitで処理できるAVX-512という命令セットを導入している。第2世代Xeon SPではその拡張としてVNNI(Vector Neural Network Instructions)を導入し、従来はFP32(32bitの浮動小数点演算)を利用して行なっていたマシンラーニング/ディープラーニングの推論処理をINT8に置き換え、性能を向上させる命令セット(Intel DL Boost)を追加した。

　今回の第3世代XeonでもAVX-512の拡張命令がいくつか追加されているが、多くは暗号化および復号化に利用する命令セットとなる。Vector CLMUL、Vector AES、VPPMADD52、SHA-NI、GNFI(Galois Field New Instructions)などが該当し、それらを利用して暗号化や複合化を行なうことで、第2世代Xeon SPに比べて大きく性能を向上させることができる。

メモリコントローラの8チャネル化、UPIの高速化、PCI Express 4.0 64レーンなどI/O周りも大幅に強化

メモリやI/Oの強化ポイント、新たに8チャネルのメモリコントローラやPCI Express 4.0/64レーンに対応するなど強化されている(出典:Intel)

　第3世代Xeon SPではCPUだけでなく、メモリコントローラ、CPUとCPU間のインターコネクトであるUPI、さらにはストレージやEthernetを接続するためのI/Oコントローラも強化されている。

　メモリコントローラは、第2世代Xeon SPでは1ソケットあたり最大6チャネル構成になっていた。しかし、第3世代Xeon SPでは8チャネルに増えており、対応メモリをDDR4-3200まで強化したことで、帯域幅も向上している。

　また、ソケットあたりの最大メモリ容量も増加しており、第2世代Xeon SPではDDRメモリだけで3TB、Optane Persistent Memoryとのミックスで4.5TBまでとなっていたが、第3世代Xeon SPではそれぞれ4TB、6TBまで利用可能になっている。

　UPIも強化しており、第2世代Xeon SPでは3ポートそれぞれが10.4GT/sの速度を実現していたが、第3世代Xeon SPでは3ポートそれぞれの速度を11.2GT/sへと引き上げている。

第2世代Xeon SPと第3世代Xeon SPの比較(出典:Intel)

モノリシックダイやUPIなどによりAMDに比べてリモートソケットのキャッシュレイテンシで有利に(出典:Intel)

同じくメモリレイテンシでもAMDに比べて有利に(出典:Intel)

　Intelによれば、競合の第3世代EPYCと比較した場合のDRAMのレイテンシは、CPUに近いところに接続されているメモリに対してアクセスする場合はほとんど変わりないが、インターコネクトの先に接続されているリモートソケット(もう1つのCPUソケット)のメモリにアクセスする場合には、第3世代EPYCが191nsなのに対して、第3世代Xeonは139nsと大きな差があると説明している。

　同じことはキャッシュのレイテンシにもいえ、第3世代EPYCがリモートソケットにあるキャッシュにアクセスする場合が209nsなのに対して、第3世代Xeonは118nsに過ぎないという。つまり、インターコネクトやCPUのメッシュ構造のインターコネクトなどにより、システム全体のキャッシュやメモリのレイテンシでは第3世代Xeonが有利だということだ。

　また、PCI Express 4.0に対応したのも大きな改良ポイントだ。第2世代Xeon SPではPCI Express 3.0までの対応で、ソケットあたり48レーンになっていたが、第3世代ではPCI Express 4.0に対応し、かつソケットあたり64レーンまで増加している。

　これにより、2ソケットのシステムでは最大128レーンが利用できることになり、EthernetやSSDなどといったPCI Express 4.0への対応で性能を引き上げられる機器を接続する場合に大きな効果を発揮する。

　こうした機能やスペックの変遷を2010年にリリースされたXeon 5600番台(Westmere-EP)から一覧にすると以下のようになる。

Xeonの各世代の進化
ブランド名	Xeon 5600番台	Xeon E5	Xeon E5 v2	Xeon E5 v3	Xeon E5 v4
開発コードネーム	Westmere-EP	Sandy Bridge-EP	Ivy Bridge-EP	Haswell-EP	Broadwell-EP
リリース年	2010年	2012年	2013年	2014年	2016年
製造プロセスルール	32nm	32nm	22nm	22nm	14nm
CPUコア(最大)	6	8	12	18	22
ダイ構成(HCC、MCC、LCC)	6	8	15、10、6	18、12、8	24、15、10
パッケージあたりのダイ数	1	1	1	1	1
L2キャッシュ(コアあたり)	256KB	256KB	256KB	256KB	256KB
LLCキャッシュ(コアあたり)	2MB	2.5MB	2.5MB	2.5MB	2.5MB
LLCキャッシュ(ダイあたり最大)	12MB	20MB	30MB/20MB/15MB	45MB/30MB/20MB	55MB/37.5MB/25MB
コアマイクロアーキテクチャ	Nehalem世代	Sandy Bridge世代	Sandy Bridge世代(改良版)	Haswell世代	Haswell世代(改良版)
コア間インターコネクト	-	リング	リング	リング	リング
CPUソケット	Socket B(LGA1366)	Socket R(LGA2011)	Socket R(LGA2011)	Socket R3(LGA2011v3)	Socket R3(LGA2011v3)
最大ソケット	2	2	2	2	2
最大メモリ容量	288GB	384GB	768GB	1.5TB	1.5TB
メモリ	DDR3-1333	DDR3-1600	DDR3-1866	DDR4-2133	DDR4-2400
Optane DC Persistent Memory対応	-	-	-	-	-
メモリチャネル数(CPUソケットあたり)	3	4	4	4	4
命令セット	SSE4.2	SSE4.2/AVX	SSE4.2/AVX	SSE4.2/AVX2	SSE4.2/AVX2/TSX
QPI/UPI(ダイあたり)	2x最大6.4GT/s	2x最大8GT/s	2x最大8GT/s	2x最大9.6GT/s	2x最大9.6GT/s
PCI Express(CPU側)	PCI Express 2.0(チップセット側)	PCI Express 3.0	PCI Express 3.0	PCI Express 3.0	PCI Express 3.0
PCI Expressレーン数(CPU側/ソケットあたり)	36(チップセット側)	40	40	40	40
DMI	-	DMI/Gen2(4レーン)	DMI/Gen2(4レーン)	DMI/Gen2(4レーン)	DMI/Gen2(4レーン)
チップセット	5500(Tyrusburg)	C600(Patsburg)	C600(Patsburg)	C610(Wellsburg)	C610(Wellsburg)

Xeon-SPの各世代の進化
ブランド名	Xeon SP	第2世代Xeon SP	第3世代Xeon SP(4-8S)	第3世代Xeon SP(1-2S)
開発コードネーム	Skylake-SP	Cascade Lake-SP	Cooper Lake	Ice Lake
リリース年	2017年	2019年	2020年	2021年
製造プロセスルール	14nm	14nm	14nm	10nm
CPUコア(最大)	28	56	28	40
ダイ構成(HCC、MCC、LCC)	28、18、10	28、18、10	28、18、10	非公表
パッケージあたりのダイ数	1	1(パッケージ)/2(BGA)	1	1
L2キャッシュ(コアあたり)	1MB	1MB	1MB	1.25MB
LLCキャッシュ(コアあたり)	1.375MB	1.375MB	1.375MB	1.5MB
LLCキャッシュ(ダイあたり最大)	38.5MB/24.75MB/13.75MB	38.5MB/24.75MB/13.75MB	38.5MB/24.75MB/13.75MB	最大60MB
コアマイクロアーキテクチャ	Skylake世代	Skylake世代	Skylake世代	Sunny Cove
コア間インターコネクト	メッシュ	メッシュ	メッシュ	メッシュ
CPUソケット	Socket P(LGA3647)	Socket P(LGA3647)/BGA(5903ball、2ダイ構成)	Socket P+(LGA4189)	Socket P+(LGA4189)
最大ソケット	2/4/8	2/4/8	4/8	2
最大メモリ容量	1.5TB	4.5TB(Optane DCPM利用時)	4.5TB(Optane DCPM利用時)	4TB(DDRのみ)/6TB(DDR＋Optane)
メモリ	DDR4-2666	DDR4-2933	DDR4-3200	DDR4-3200
Optane DC Persistent Memory対応	-	○	○(200シリーズ)	○(200シリーズ)
メモリチャネル数(CPUソケットあたり)	6	6/12	6	8
命令セット	SSE4.2/AVX2/TSX/AVX512	SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI)	SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16)	SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16)/Intel Crypt Accelerator
QPI/UPI(ダイあたり)	3x最大10.4GT/s	3x最大10.4GT/s	6x最大10.4GT/s	3x最大11.2GT/s
PCI Express(CPU側)	PCI Express 3.0	PCI Express 3.0	PCI Express 3.0	PCI Express 4.0
PCI Expressレーン数(CPU側/ソケットあたり)	64(MCC/LCCは48)	48	48	64
DMI	DMI/Gen3(4レーン)	DMI/Gen3(4レーン)	DMI/Gen3(4レーン)	DMI/Gen3(4レーン)
チップセット	C620(Lewisburg)	C620(Lewisburg)	C620A(Lewisburg R)	C620A(Lewisburg R)

前世代比1.46倍の性能。ディープ/マシンラーニングの推論ではEPYCの1.5倍、NVIDIA A100の1.3倍を実現

過去のXeon SP/Xeon E5などとの性能比較、右端が平均(出典:Intel)

　こうした構造になっている第3世代Xeon SPだが、性能は前世代と比較して大きく引き上げられている。

　Intelによれば、SPECrate2017_int_base(整数演算)、SPECrate2017_fp_base(浮動小数点演算)、Stream Triad(メモリ帯域)、Linpackなどの業界標準ベンチマークでの相乗平均では、トップSKUの第3世代Xeon SP(Xeon Platinum 8380)が第2世代Xeon SP(Xeon Platinum 8280)の1.46倍となった。

　同様に、各世代のトップSKUと比較すると、初代Xeon SPのXeon Platinum 8180(2017年発売)とで最大1.54倍、Xeon E5 2699 v4(2016年発売)とで最大2.65倍、Xeon E5 2699 v3(2014年発売)とでは最大3.1倍となっている。

ディープラーニング/マシンラーニングの推論処理で、20の一般的なワークロードの相乗平均で比較した場合、AMDの第3世代EPYCと比較して最大1.5倍、NVIDIA A100 GPUと比較して最大1.3倍(出典:Intel)

第3世代Xeon SPと第3世代EPYCの拡張命令への対応比較。Intel側は新しいAVX-512とその拡張命令に対応しているが、AMDはほとんど対応していないため、ソフトウェアのサポートが進むほどIntelが有利に(出典:Intel)

第3世代Xeon SPと第3世代EPYCの比較データ(出典:Intel)

　競合製品との比較では、第3世代EPYCとの詳細な比較データを公開している。ディープラーニング/マシンラーニングの推論処理について、20の一般的なワークロードの相乗平均で比較した場合、第3世代Xeon SPはEPYC 7763に対して最大1.5倍、NVIDIA A100 GPUに対して最大1.3倍の性能を発揮すると説明している。

　ただし、これらの処理にはVNNIやBfloat16などといった、Intel側のみが対応しているAVX-512の命令セットが利用されていることが多いと考えられる。

　実際、第3世代EPYCはAVX-512やその拡張命令には対応しておらずAVX2までのサポートとなっており、IntelがXeon Platinum 8380(40コア)とAMD EPYC 7763(64コア)の比較データとして公開したベンチマーク結果は、いずれもAVX-512やDL BoostなどAMD側が対応していない拡張命令セットを利用したものだった。この点は考慮しておく必要があるだろう。

　なお、今回の発表ではSPECrate2017_int_base(整数演算)、SPECrate2017_fp_base(浮動小数点演算)のような、データセンター向けCPUで一般的に比較に利用されるベンチマークテストを利用して比較したデータは公開されていない。

　おそらく、第3世代Xeonが市場に出て購入できるようになると、AMD側からの比較データが公開されることになると思うので、その比較でより一般的な性能差が明らかになってくるのではないだろうか。