笠原一輝のユビキタス情報局
第3世代Xeon SPは競合より最大1.5倍高速。40コア化やメモリ/キャッシュも改善
2021年4月7日 00:00
Intelは4月6日の8時(米国時間)から記者会見を開催し、データセンター向けの第3世代Xeon Scalable Processors(以下第3世代Xeon SP)の1~2ソケット版を発表した。開発コードネーム「Ice Lake」ないしは「Ice Lake-SP」で呼ばれてきた同製品は、同社のデータセンター向け製品としてはじめて10nmプロセスルールに微細化されたものとなる。
競合のAMDは、Zenマイクロアーキテクチャに基づいた初代EPYCを2017年にリリース。2019年には7nmで製造されるZen 2ベースの第2世代EPYCを投入して、歴史上はじめて製造プロセスルールの世代でIntelを追い越し、じょじょに市場シェアを拡大しつつある。
さらに3月には、マイクロアーキテクチャをZen 3へと進化させた第3世代EPYCをリリースし、Intelを追い上げる体制を整えている。そうしたなかでの同社のカウンターが今回の第3世代Xeon SPとなる。
第3世代Xeon SPの詳細を見ていくと、CPUコアは従来製品の28コアから40コアに増やしながら、パッケージのなかに大きなダイが1つのモノリシックダイ構造を維持しつつ、キャッシュやメモリを最適化していき、パッケージ全体で性能を上げていく設計が見えてくる。同時にAVX512の新しい命令セットを導入することで、暗号化や復号化時の性能も大きく引き上げている。
本レポートでは、第3世代Xeon SPの内部アーキテクチャや、その性能などについて解説していきたい。Intelによれば、第3世代EPYCと比較してディープラーニング/マシンラーニングの推論時に最大1.5倍の性能を発揮するという。
モノリシックダイという骨格を維持したまま40コアを実現
今回Intelが発表した第3世代Xeon SPは、開発コードネームこそIce Lakeと、2019年発表のクライアントPC向け第10世代Coreと同じだが、まったく別のダイとなる。クライアントPC向けと同じく10nmプロセスルールで製造される製品だ。
第3世代Xeon SPとしては、すでに2020年6月に開発コードネーム「Cooper Lake」が発表されている。Cooper Lakeは、14nmプロセスルールで製造され、CPUのマイクロアーキテクチャは前世代と同じSkylake世代を踏襲した製品で、最大28コアまでとなる。しかし、CPUソケットはSocket P+(LGA4189)に変更されており、4~8ソケットまでをカバーする製品と位置づけられている。
それに対して、1~2ソケットの製品は第2世代Xeon SP(Cascade Lake-SP)のまま据え置かれていたが、今回Ice Lakeベースの第3世代Xeon SPの登場により、ようやく最新の製品へと切り替わることになる。
なお、CPUソケットはCooper Lakeと同じSocket P+(LGA4189)で、第2世代Xeon SP世代のSocket P(LGA3647)とは互換性がないため、新しいマザーボードが必要になる。
今回発表された第3世代Xeon SPのSKU構成は以下のとおりだ。
グレード | SKU | コア数 | ベースクロック | ターボ時最大クロック(シングル) | ターボ時最大クロック(マルチ) | L3キャッシュ | TDP | Optane Persistent Memory対応 | SGX Enclave容量 | 価格(米ドル) |
---|---|---|---|---|---|---|---|---|---|---|
Platinum | 8380 | 40 | 2.3GHz | 3.4GHz | 3GHz | 60MB | 270W | ○ | 512GB | 8,099ドル |
8368Q | 38 | 2.6GHz | 3.7GHz | 3.3GHz | 57MB | 270W | ○ | 512GB | 6,743ドル | |
8368 | 38 | 2.4GHz | 3.4GHz | 3.2GHz | 57MB | 270W | ○ | 512GB | 6,302ドル | |
8362 | 32 | 2.8GHz | 3.6GHz | 3.5GHz | 48MB | 265W | ○ | 64GB | 5,448ドル | |
8360Y | 36 | 2.4GHz | 3.5GHz | 3.1GHz | 54MB | 250W | ○ | 64GB | 4,702ドル | |
8358 | 32 | 2.6GHz | 3.4GHz | 3.3GHz | 48MB | 250W | ○ | 64GB | 3,950ドル | |
8358P | 32 | 2.6GHz | 3.4GHz | 3.2GHz | 48MB | 240W | ○ | 8GB | 3,950ドル | |
8352M | 32 | 2.3GHz | 3.5GHz | 2.8GHz | 48MB | 185W | ○ | 64GB | 3,864ドル | |
8352S | 32 | 2.2GHz | 3.4GHz | 2.8GHz | 48MB | 205W | ○ | 512GB | 4,046ドル | |
8352V | 36 | 2.1GHz | 3.5GHz | 2.5GHz | 54MB | 195W | ○ | 8GB | 3,450ドル | |
8352Y | 32 | 2.2GHz | 3.4GHz | 2.8GHz | 48MB | 205W | ○ | 64GB | 3,450ドル | |
8351N | 36 | 2.4GHz | 3.5GHz | 3.1GHz | 54MB | 225W | ○ | 64GB | 3,027ドル | |
Gold | 6354 | 18 | 3GHz | 3.6GHz | 3.6GHz | 39MB | 205W | ○ | 64GB | 2,445ドル |
6348 | 28 | 2.6GHz | 3.5GHz | 3.4GHz | 42MB | 235W | ○ | 64GB | 3,072ドル | |
6346 | 16 | 3.1GHz | 3.6GHz | 3.6GHz | 36MB | 205W | ○ | 64GB | 2,300ドル | |
6342 | 24 | 2.8GHz | 3.5GHz | 3.3GHz | 36MB | 230W | ○ | 64GB | 2,529ドル | |
6338 | 24 | 2GHz | 3.2GHz | 2.6GHz | 48MB | 205W | ○ | 64GB | 2,612ドル | |
6338N | 32 | 2.2GHz | 3.5GHz | 2.7GHz | 48MB | 185W | ○ | 64GB | 2,795ドル | |
6338T | 24 | 2.1GHz | 3.4GHz | 2.7GHz | 36MB | 165W | ○ | 64GB | 2,742ドル | |
6336Y | 24 | 2.4GHz | 3.6GHz | 3GHz | 36MB | 185W | ○ | 64GB | 1,977ドル | |
6334 | 8 | 3.6GHz | 3.7GHz | 3.6GHz | 18MB | 165W | ○ | 64GB | 2,214ドル | |
6330 | 28 | 2GHz | 3.1GHz | 2.6GHz | 42MB | 205W | ○ | 64GB | 1,894ドル | |
6330N | 28 | 2.2GHz | 3.4GHz | 2.6GHz | 42MB | 165W | ○ | 64GB | 2,029ドル | |
6326 | 16 | 2.9GHz | 3.5GHz | 3.3GHz | 24MB | 185W | ○ | 64GB | 1,300ドル | |
6314U | 32 | 2.3GHz | 3.4GHz | 2.9GHz | 48MB | 205W | ○ | 64GB | 2,600ドル | |
6312U | 24 | 2.4GHz | 3.6GHz | 3.1GHz | 36MB | 185W | ○ | 64GB | 1,450ドル | |
5320 | 26 | 2.2GHz | 3.4GHz | 2.8GHz | 39MB | 185W | ○ | 64GB | 1,555ドル | |
5320T | 20 | 2.3GHz | 3.5GHz | 2.9GHz | 30MB | 150W | ○ | 64GB | 1,727ドル | |
5318N | 24 | 2.1GHz | 3.4GHz | 2.7GHz | 36MB | 150W | ○ | 64GB | 1,375ドル | |
5318S | 24 | 2.1GHz | 3.4GHz | 2.6GHz | 36MB | 135W | ○ | 512GB | 1,667ドル | |
5318Y | 24 | 2.1GHz | 3.4GHz | 2.6GHz | 36MB | 165W | ○ | 64GB | 1,273ドル | |
5317 | 12 | 3GHz | 2.6GHz | 3.4GHz | 18MB | 150W | ○ | 64GB | 950ドル | |
5315Y | 8 | 3.2GHz | 3.6GHz | 3.5GHz | 12MB | 140W | ○ | 64GB | 895ドル | |
Silver | 4316 | 20 | 2.3GHz | 3.4GHz | 2.8GHz | 30MB | 150W | - | 8GB | 1,002ドル |
4314 | 16 | 2.4GHz | 3.4GHz | 2.9GHz | 24MB | 135W | ○ | 8GB | 684ドル | |
4310 | 12 | 2.1GHz | 3.3GHz | 2.7GHz | 18MB | 120W | - | 8GB | 501ドル | |
4310T | 10 | 2.3GHz | 3.4GHz | 2.9GHz | 15MB | 105W | - | 8GB | 555ドル | |
4309Y | 8 | 2.8GHz | 3.6GHz | 3.4GHz | 12MB | 105W | - | 8GB | 501ドル |
【お詫びと訂正】初出時、上の表の一部に誤りがありました。お詫びして訂正させていただきます。
第3世代Xeon SP(以下とくに断りがない場合はIce Lakeベース)のアーキテクチャ上の特徴を一言で言うなら、CPUコア、メモリコントローラ、I/Oなどを接続するインターコネクトが初代Xeon SP、第2世代Xeon SPと同じメッシュ構造なのを例外として、ほとんどすべての部分に手が入っているということにある。
ただし、EPYCが採用しているようなチップレット、あるいはMCM(Multi-Chip Module)といったパッケージの上に複数のダイを並べるパッケージング技術は採用されていない。
EPYCではチップレットを採用することで、8コアのCPUダイを8つ、I/Oダイ(IOD)を1つの合計9つを混載して、最大64コアというスペックを実現している。EPYCが多くのコアを実装し、マルチコア時に高い性能を実現できる理由の1つだ。
一方、第3世代Xeon SPでは、あくまでモノリシックダイとして製造し、パッケージのなかにCPUのダイを1つだけ搭載し、USBなどのI/Oはチップセット(PCH)としてマザーボード上に実装するかたちとなっており、構造は従来と同じだ。
しかし、今回製造プロセスルールが微細化されたことにより、同じようなダイサイズ(Intelはダイサイズなどを明らかにしていない)であっても、実装できるCPUコアの数を最大40コアまで増やすことができるようになった。
CPUはSunny CoveとなりIPCが大きく向上。暗号化関連のAVX-512拡張命令も追加
CPUのマイクロアーキテクチャは、Intelのデータセンター向け製品としてははじめて、新世代のCPUマイクロアーキテクチャとなるCove系に切り替わっている。採用されているのはクライアントPC向けのIce Lakeと同じ「Sunny Cove」になる。
初代Xeon SP(Skylake-SP)、第2世代Xeon SP(Cascade Lake-SP)、そして4~8ソケット用の第3世代Xeon SP(Cooper Lake)のいずれも、クライアントPC向けに2015年より導入されたSkylakeをベースとするCPUが採用されてきた。
これは14nm向けのCPUマイクロアーキテクチャがSkylake(および改良版のKaby Lake)しかなかったためで、初代Xeon SPに採用されてからじつに4年近く利用されてきた。
今回第3世代Xeon SPに採用されたSunny Coveコアでは、CPUコア内部のフロントエンド(分岐予測やデコーダなど)も、内部の実行ユニットも大幅に改善されている。前世代と比較すると、Out-Of-Orderのウィンドウが224から352に、インフライトのロード/ストアが72+56から128+72に、スケジューラのエントリー数が97から160に、整数と浮動小数点のレジスタファイルが180+168から280+224になるなど改良されている。
また、キャッシュ階層の改良も大きな改善点の1つで、従来世代と比較すると以下のように拡張されている。
第2世代Xeon SP(Cascade Lake) | 第3世代Xeon SP(Ice Lake) | |
---|---|---|
L1命令 | 32KB | 32KB |
L1データ | 32KB | 48KB |
L2キャッシュ | 1MB | 1.25MB |
L3キャッシュ | 1.375MB | 1.5MB |
L1データと、L2キャッシュが増やされているほか、ソケット内のCPUすべてが共有するL3キャッシュもコアあたりの容量が1.25MBから1.5MBになっており、40コア製品ではL3キャッシュが全体で60MBになるなど総容量も増加している。
こうした内部的な改善によりIPCが大きく向上している。Intelによれば、同じ28コアの製品同士で比較すると、従来世代と比較して約20%改善しているという。
さらに、CPUの命令セットにも拡張が入っている。Intelは初代Xeon SPにおいてSIMDの拡張命令を512bitで処理できるAVX-512という命令セットを導入している。第2世代Xeon SPではその拡張としてVNNI(Vector Neural Network Instructions)を導入し、従来はFP32(32bitの浮動小数点演算)を利用して行なっていたマシンラーニング/ディープラーニングの推論処理をINT8に置き換え、性能を向上させる命令セット(Intel DL Boost)を追加した。
今回の第3世代XeonでもAVX-512の拡張命令がいくつか追加されているが、多くは暗号化および復号化に利用する命令セットとなる。Vector CLMUL、Vector AES、VPPMADD52、SHA-NI、GNFI(Galois Field New Instructions)などが該当し、それらを利用して暗号化や複合化を行なうことで、第2世代Xeon SPに比べて大きく性能を向上させることができる。
メモリコントローラの8チャネル化、UPIの高速化、PCI Express 4.0 64レーンなどI/O周りも大幅に強化
第3世代Xeon SPではCPUだけでなく、メモリコントローラ、CPUとCPU間のインターコネクトであるUPI、さらにはストレージやEthernetを接続するためのI/Oコントローラも強化されている。
メモリコントローラは、第2世代Xeon SPでは1ソケットあたり最大6チャネル構成になっていた。しかし、第3世代Xeon SPでは8チャネルに増えており、対応メモリをDDR4-3200まで強化したことで、帯域幅も向上している。
また、ソケットあたりの最大メモリ容量も増加しており、第2世代Xeon SPではDDRメモリだけで3TB、Optane Persistent Memoryとのミックスで4.5TBまでとなっていたが、第3世代Xeon SPではそれぞれ4TB、6TBまで利用可能になっている。
UPIも強化しており、第2世代Xeon SPでは3ポートそれぞれが10.4GT/sの速度を実現していたが、第3世代Xeon SPでは3ポートそれぞれの速度を11.2GT/sへと引き上げている。
Intelによれば、競合の第3世代EPYCと比較した場合のDRAMのレイテンシは、CPUに近いところに接続されているメモリに対してアクセスする場合はほとんど変わりないが、インターコネクトの先に接続されているリモートソケット(もう1つのCPUソケット)のメモリにアクセスする場合には、第3世代EPYCが191nsなのに対して、第3世代Xeonは139nsと大きな差があると説明している。
同じことはキャッシュのレイテンシにもいえ、第3世代EPYCがリモートソケットにあるキャッシュにアクセスする場合が209nsなのに対して、第3世代Xeonは118nsに過ぎないという。つまり、インターコネクトやCPUのメッシュ構造のインターコネクトなどにより、システム全体のキャッシュやメモリのレイテンシでは第3世代Xeonが有利だということだ。
また、PCI Express 4.0に対応したのも大きな改良ポイントだ。第2世代Xeon SPではPCI Express 3.0までの対応で、ソケットあたり48レーンになっていたが、第3世代ではPCI Express 4.0に対応し、かつソケットあたり64レーンまで増加している。
これにより、2ソケットのシステムでは最大128レーンが利用できることになり、EthernetやSSDなどといったPCI Express 4.0への対応で性能を引き上げられる機器を接続する場合に大きな効果を発揮する。
こうした機能やスペックの変遷を2010年にリリースされたXeon 5600番台(Westmere-EP)から一覧にすると以下のようになる。
ブランド名 | Xeon 5600番台 | Xeon E5 | Xeon E5 v2 | Xeon E5 v3 | Xeon E5 v4 |
---|---|---|---|---|---|
開発コードネーム | Westmere-EP | Sandy Bridge-EP | Ivy Bridge-EP | Haswell-EP | Broadwell-EP |
リリース年 | 2010年 | 2012年 | 2013年 | 2014年 | 2016年 |
製造プロセスルール | 32nm | 32nm | 22nm | 22nm | 14nm |
CPUコア(最大) | 6 | 8 | 12 | 18 | 22 |
ダイ構成(HCC、MCC、LCC) | 6 | 8 | 15、10、6 | 18、12、8 | 24、15、10 |
パッケージあたりのダイ数 | 1 | 1 | 1 | 1 | 1 |
L2キャッシュ(コアあたり) | 256KB | 256KB | 256KB | 256KB | 256KB |
LLCキャッシュ(コアあたり) | 2MB | 2.5MB | 2.5MB | 2.5MB | 2.5MB |
LLCキャッシュ(ダイあたり最大) | 12MB | 20MB | 30MB/20MB/15MB | 45MB/30MB/20MB | 55MB/37.5MB/25MB |
コアマイクロアーキテクチャ | Nehalem世代 | Sandy Bridge世代 | Sandy Bridge世代(改良版) | Haswell世代 | Haswell世代(改良版) |
コア間インターコネクト | - | リング | リング | リング | リング |
CPUソケット | Socket B(LGA1366) | Socket R(LGA2011) | Socket R(LGA2011) | Socket R3(LGA2011v3) | Socket R3(LGA2011v3) |
最大ソケット | 2 | 2 | 2 | 2 | 2 |
最大メモリ容量 | 288GB | 384GB | 768GB | 1.5TB | 1.5TB |
メモリ | DDR3-1333 | DDR3-1600 | DDR3-1866 | DDR4-2133 | DDR4-2400 |
Optane DC Persistent Memory対応 | - | - | - | - | - |
メモリチャネル数(CPUソケットあたり) | 3 | 4 | 4 | 4 | 4 |
命令セット | SSE4.2 | SSE4.2/AVX | SSE4.2/AVX | SSE4.2/AVX2 | SSE4.2/AVX2/TSX |
QPI/UPI(ダイあたり) | 2x最大6.4GT/s | 2x最大8GT/s | 2x最大8GT/s | 2x最大9.6GT/s | 2x最大9.6GT/s |
PCI Express(CPU側) | PCI Express 2.0(チップセット側) | PCI Express 3.0 | PCI Express 3.0 | PCI Express 3.0 | PCI Express 3.0 |
PCI Expressレーン数(CPU側/ソケットあたり) | 36(チップセット側) | 40 | 40 | 40 | 40 |
DMI | - | DMI/Gen2(4レーン) | DMI/Gen2(4レーン) | DMI/Gen2(4レーン) | DMI/Gen2(4レーン) |
チップセット | 5500(Tyrusburg) | C600(Patsburg) | C600(Patsburg) | C610(Wellsburg) | C610(Wellsburg) |
ブランド名 | Xeon SP | 第2世代Xeon SP | 第3世代Xeon SP(4-8S) | 第3世代Xeon SP(1-2S) |
---|---|---|---|---|
開発コードネーム | Skylake-SP | Cascade Lake-SP | Cooper Lake | Ice Lake |
リリース年 | 2017年 | 2019年 | 2020年 | 2021年 |
製造プロセスルール | 14nm | 14nm | 14nm | 10nm |
CPUコア(最大) | 28 | 56 | 28 | 40 |
ダイ構成(HCC、MCC、LCC) | 28、18、10 | 28、18、10 | 28、18、10 | 非公表 |
パッケージあたりのダイ数 | 1 | 1(パッケージ)/2(BGA) | 1 | 1 |
L2キャッシュ(コアあたり) | 1MB | 1MB | 1MB | 1.25MB |
LLCキャッシュ(コアあたり) | 1.375MB | 1.375MB | 1.375MB | 1.5MB |
LLCキャッシュ(ダイあたり最大) | 38.5MB/24.75MB/13.75MB | 38.5MB/24.75MB/13.75MB | 38.5MB/24.75MB/13.75MB | 最大60MB |
コアマイクロアーキテクチャ | Skylake世代 | Skylake世代 | Skylake世代 | Sunny Cove |
コア間インターコネクト | メッシュ | メッシュ | メッシュ | メッシュ |
CPUソケット | Socket P(LGA3647) | Socket P(LGA3647)/BGA(5903ball、2ダイ構成) | Socket P+(LGA4189) | Socket P+(LGA4189) |
最大ソケット | 2/4/8 | 2/4/8 | 4/8 | 2 |
最大メモリ容量 | 1.5TB | 4.5TB(Optane DCPM利用時) | 4.5TB(Optane DCPM利用時) | 4TB(DDRのみ)/6TB(DDR+Optane) |
メモリ | DDR4-2666 | DDR4-2933 | DDR4-3200 | DDR4-3200 |
Optane DC Persistent Memory対応 | - | ○ | ○(200シリーズ) | ○(200シリーズ) |
メモリチャネル数(CPUソケットあたり) | 6 | 6/12 | 6 | 8 |
命令セット | SSE4.2/AVX2/TSX/AVX512 | SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI) | SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16) | SSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16)/Intel Crypt Accelerator |
QPI/UPI(ダイあたり) | 3x最大10.4GT/s | 3x最大10.4GT/s | 6x最大10.4GT/s | 3x最大11.2GT/s |
PCI Express(CPU側) | PCI Express 3.0 | PCI Express 3.0 | PCI Express 3.0 | PCI Express 4.0 |
PCI Expressレーン数(CPU側/ソケットあたり) | 64(MCC/LCCは48) | 48 | 48 | 64 |
DMI | DMI/Gen3(4レーン) | DMI/Gen3(4レーン) | DMI/Gen3(4レーン) | DMI/Gen3(4レーン) |
チップセット | C620(Lewisburg) | C620(Lewisburg) | C620A(Lewisburg R) | C620A(Lewisburg R) |
前世代比1.46倍の性能。ディープ/マシンラーニングの推論ではEPYCの1.5倍、NVIDIA A100の1.3倍を実現
こうした構造になっている第3世代Xeon SPだが、性能は前世代と比較して大きく引き上げられている。
Intelによれば、SPECrate2017_int_base(整数演算)、SPECrate2017_fp_base(浮動小数点演算)、Stream Triad(メモリ帯域)、Linpackなどの業界標準ベンチマークでの相乗平均では、トップSKUの第3世代Xeon SP(Xeon Platinum 8380)が第2世代Xeon SP(Xeon Platinum 8280)の1.46倍となった。
同様に、各世代のトップSKUと比較すると、初代Xeon SPのXeon Platinum 8180(2017年発売)とで最大1.54倍、Xeon E5 2699 v4(2016年発売)とで最大2.65倍、Xeon E5 2699 v3(2014年発売)とでは最大3.1倍となっている。
競合製品との比較では、第3世代EPYCとの詳細な比較データを公開している。ディープラーニング/マシンラーニングの推論処理について、20の一般的なワークロードの相乗平均で比較した場合、第3世代Xeon SPはEPYC 7763に対して最大1.5倍、NVIDIA A100 GPUに対して最大1.3倍の性能を発揮すると説明している。
ただし、これらの処理にはVNNIやBfloat16などといった、Intel側のみが対応しているAVX-512の命令セットが利用されていることが多いと考えられる。
実際、第3世代EPYCはAVX-512やその拡張命令には対応しておらずAVX2までのサポートとなっており、IntelがXeon Platinum 8380(40コア)とAMD EPYC 7763(64コア)の比較データとして公開したベンチマーク結果は、いずれもAVX-512やDL BoostなどAMD側が対応していない拡張命令セットを利用したものだった。この点は考慮しておく必要があるだろう。
なお、今回の発表ではSPECrate2017_int_base(整数演算)、SPECrate2017_fp_base(浮動小数点演算)のような、データセンター向けCPUで一般的に比較に利用されるベンチマークテストを利用して比較したデータは公開されていない。
おそらく、第3世代Xeonが市場に出て購入できるようになると、AMD側からの比較データが公開されることになると思うので、その比較でより一般的な性能差が明らかになってくるのではないだろうか。