笠原一輝のユビキタス情報局

チップレットになった「第4世代Xeon SP」、性能向上の鍵はAMXと4つのアクセラレータ

新しいCPUソケットLGA4677と第4世代Xeon SP

 Intelは1月10日(現地時間、日本時間1月11日)に報道発表を行ない、同社が「Sapphire Rapids」(サファイアラピッズ)の開発コードネームで開発してきたデータセンター向けCPUを、「第4世代Xeonスケーラブル・プロセッサー」(英語名:4th Gen Xeon Scalable Processors、以下第4世代Xeon SP)として発表したことを明らかにした。

 新しい第4世代Xeon SPは、4つのCPUダイを1つのパッケージに統合しているというチップレット技術を採用しており、Intelが独自開発したEMIBを利用して4つダイが1つの巨大CPUとして動作する仕組みになっている。これにより従来製品では最大40コアだったCPUコア数は、最大60コアへと強化されている。

 また、アーキテクチャ面での大きな強化点としては、QAT(QuickAssist Technology)、DLB(Dynamic Load Blancer)、DSA(Data Streaming Accelerator)、IAA(In-Memory Analytics Accelerator)といった4つのハードウェアアクセラレータがCPUに統合されており、それらを利用することでCPUの処理をオフロードして電力効率を大きく改善している。

 そうした第4世代Xeon SPのハードウェアに関して、Intelへの取材などを通じて分かったことを踏まえながら解説していきたい。

チップレットのXCC、モノリシックMCCという2つの種類のパッケージが用意されている第4世代Xeon SP

第4世代Xeon SPのXCC(ヒートスプレッダを外したところ)。4つのCPUタイルがあることが分かる

 今回の第4世代Xeon SPは、CPUの内部構造(マイクロアーキテクチャ)、パッケージ、そしてプラットホームに至るまで、ほとんど総取り替えと言って良いほどの大きな改良になっている。

 その1番の目玉はCPUのパッケージング技術として、チップレットを採用したことだ。チップレットとは複数のダイをパッケージ上で混載する技術で、第4世代Xeon SPではIntelが自社開発したEMIB(イーミブ、Embedded Multi-die Interconnect Bridge)と呼ばれるチップレット技術が利用されている。EMIBはサブ基板の内部にブリッジ用のチップ(Embedded Silicon Bridge)でチップ同士を接続しており、通常のチップレットなどに比べてより高速にデータ通信を可能にしている。

 第4世代Xeon SPでは、CPUパッケージのサブ基板上に4つのCPUタイル(Intelではチップレットでのダイのことをタイルと呼んでいる)をEMIBで接続する構造になっている。第4世代Xeon SPでは正方形に近いCPUタイルが4つサブ基板上に実装されているのがCPUの実物を見ると見てとれる。

XCC、MCC、XCC(Xeon Maxシリーズ)(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 Intelによれば、この4つのCPUタイルを基板上に実装しているのはXCC(eXtreme Core Count)と呼んでいる構成で、もう1つのMCC(Medium Core Count)は従来と同じモノリシック(単体)なダイになっている。Intelが公表した資料などを基に、XCC、MCCの構造をブロック図にしたものが以下の図になる。

XCC、MCC、XCC(Xeon Maxシリーズ)のブロック図(筆者作成)

 既に述べたとおり、XCCは4つのCPUタイルから構成されており、1つのタイルにはGolden Coveコア(後述するが、第12世代Core、第13世代CoreのPコアとして採用されているCPUのマイクロアーキテクチャ)のCPUが15個あり、それぞれに2チャンネルのDDR5メモリコントローラ、さらに2つのPCI Express Gen 5のコントローラ、1つのUPIコントローラ、そしてHBM2eのメモリコントローラも用意されている(ただし、HBM2eのメモリコントローラはMaxシリーズのみで利用され、通常版の第4世代Xeonでは無効にされている)。

 また、CPUタイル1つにはそれぞれにQAT、DLB、DSA、IAAといったハードウェアアクセラレータが用意されている(ハードウェアアクセラレータに関しては後述する)。

 まとめると、CPUタイル、そしてCPUパッケージ全体でCPUコア、PCI Expressコントローラ、UPIコントローラ、アクセラレータなどをまとめると、以下のような数があることになる。

【表1】CPUタイル1つとXCC全体でのハードウェアの数
CPUタイルXCC全体
CPUコア数1560
メモリコントローラDDR5(2)/HBM(1)DDR5(8)/HBM(4)
PCI Express Gen 528
UPI14
QAT14
DLB14
DSA14
IAA14

 CPUタイルそれぞれにメモリコントローラやアクセラレータ、PCI Expressコントローラなどを搭載していることで、それぞれ複数が使えるようになっており、CPUタイル同士をCPUタイル内部とメッシュインターコネクトで接続することで、性能を大きく低下させることなくチップレットの仕組みを実現している。

MCCはアーキテクチャ的には34コア、製品レベルでは32コアという構成に

Xeon Maxシリーズ。4つのタイルの周りに16GBのHBM2eメモリが4つ搭載されている。抵抗などの周辺チップがパッケージに乗り切らないので、耳が飛び出している形になっている

 MCCの方は、32コア以下のSKUで利用され、アーキテクチャ的には34コアのCPUが用意されている。しかし、MCCで最上位構成のSKUは32コアで、2コアは標準状態で無効になっている。8チャンネルDDR5メモリコントーラという仕様は同じだが、PCI Express Gen 5コントローラは6つとXCCに比べて2つ少ないことになる。

 また、アクセラレータは、XCCではCPUタイル1つに4種類のアクセラレータが搭載されており、それぞれが4つ搭載されていた。MCCではQATとDLBが2つあることになっており、DSAとIAAについては1つとなっている。

 こうしたMCCの構成を見ていると、同じ30コア前後の構成であれば、XCCに採用されているCPUタイルを2つ利用して30コア製品としてMCCにすれば良いのではと考えたくなるだろう。しかし、その場合CPUタイル1つにはメモリコントローラは2チャンネルしかないので、CPUタイル2つではメモリは4チャンネルになってしまい、データセンター向けCPUとしてはメモリ帯域が十分ではなくなってしまう。

 これを避けるためには、AMDがEPYCで採用しているように、メモリコントローラは別ダイにしてCPUと分離しないといけなくなるだろう。今回のXCCではそのデザインを採用しなかったので、MCCをモノリシックのダイにしたのは論理的な選択といえる。

 Xeon Maxシリーズは、既に11月に概要が発表されている通り、第4世代Xeon SPに、64GBのHBM2eメモリを追加したバージョンになる(このため、Sapphire Rapids with High Bandwidth Memoryと別の開発コードネームが与えられてきた)。

Xeon Maxのパッケージ、同じLGA4677

 Xeon MaxではCPUコアは最大56コアになり、標準状態で4つのコアが無効にされているほか、アクセラレータはDSAのみが有効にされておりmQATなどほかの3つは無効にされている。

CPUはGolden Coveに強化されSTで15%性能向上、AMXに対応したAI推論性能が大幅アップ

第3世代Xeon SP(Sunny Cove)と第4世代Xeon(Golden Cove)の比較。第4世代ではIPCが15%向上している(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 CPUコアは、クライアントPC向けの第12世代/第13世代CoreのPコアで採用されているGolden Coveコアになっている。前世代となる第3世代Xeon SP(Ice Lake-SP)ではCoveシリーズの最初の世代となるSunny Coveから、クライアントPC向けでいえば2世代進化したことになる。

 採用されているGolden Coveは第12世代Core向けのL2キャッシュが1.25MB版ではなく、第13世代Coreに採用されているL2キャッシュが2MBになっているバージョンになっている(クライアントPCではそれをRaptor Coveと呼んでいる)。

 Golden Coveでは、Sunny Coveに比べるとフロントエンド(デコーダや分岐予測など)が大きく強化されているほか、L2キャッシュもL3キャッシュも増やされており、世代間のIPC(Instruction Per Clock-cycle、1周波数あたりに実行できる命令数のこと、数字が大きければ大きいほどCPUの実行効率が良いことを意味する)が15%向上している。つまり、シングルスレッドで処理を行なうと15%性能が向上するということを意味する。

 それと同時に、ソケット1つあたりのCPUコア数が増えている。第3世代Xeon SPではモノリシックダイだったため、1ソケットで40コアが最大構成になっていた。それに対して第4世代Xeon SPのXCCでは最大60コアになっており、CPUコア数が約1.5倍になっている。それにより、1ソケットあたりのマルチスレッド性能も向上している。

AMXおよびAdvanced Vector Extensions for vRANという新命令セットに対応(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 また、第4世代Xeon SPではx86の拡張命令セットとして2つの拡張命令セットが追加されている。1つはAMX(Advanced Matrix eXtensions)で、AMXはCPUに搭載された新しい演算器「TMUL(Tile Matrix multiply Unit)」を利用して効率よく行列演算を行なう仕組みになる。こうした拡張命令は、最近のAI推論処理を行なうプロセッサー(CPU/GPU)で搭載されることがトレンドになっていて、AMXもそうした拡張命令の1つと考えてよい。

 AMXに対応したCPUでは、2つのTMULエンジンが内蔵されており、それを利用して行列演算を効率よく行なうことができる。これにより、BF16を利用してAI推論を行う時により高効率で演算することができる。

 また、AVX512の拡張として用意される「Advanced Vector Extensions for vRAN」は、5GのRAN(Radio Access Network)を汎用プロセッサで構築するアプリケーション(vRAN)に利用する場合に、FP16を利用して複雑な乗算をAVX512で行なうことが可能になる。Advanced Vector Extensions for vRANではAVX512に42の新しい命令が追加され、FP16の演算時のスループットが2倍になり、vRANの性能を大きく引き上げることができる。

QAT、DLB、DSA、IAAという4つの種類のHWアクセラレータをそれぞれ4つ搭載

4つのハードウェアアクセラレータに対応(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 第4世代Xeon SPではそうした追加の拡張命令だけでなく、4つのハードウェアアクセラレータがCPUタイル(XCC)、CPUダイ(MCC)に統合されている。具体的にはQAT、DLB、DSA、IAAの4つになる。

QAT(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 QATはもともと初代Xeon SPの世代で暗号化/復号化のアクセラレータとしてチップセット側に統合されたアクセセラレータだが、今回の第4世代Xeon SPではそれがCPU側に統合されている。

DLB(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)
DSA(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)
IAA(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 DLBは、CPUにデータを読み込んで処理する際に、データを実行効率の良い順序に並べ替えてキューに入れて実行するためのアクセラレータになる。それによりCPUに負荷をかけることなく順序を入れ替えることができるので、CPUの利用効率を上げることができる。

 DSAはメモリにデータを書き込む際に、その書き込みをDSAにより最適化することで、より効率よくメモリに書き込むことが可能になる。IAAは圧縮、解凍、スキャン/フィルタという3つのエンジンを内蔵しており、データを圧縮して読み込むことでメモリの帯域を節約することを可能にする。

Optimized Power Mode(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 こうしたアクセラレータはそれぞれCPUにかかる負荷をオフロードすることを目的としており、CPUのリソースを演算にだけ振り向けることができるだけでなく、CPUの電力効率を改善することを可能にする。さらに、「Optimized Power Mode」という電力効率優先のモードが用意されており、マザーボードのBIOS設定で有効にすることができ、5%程度の性能低下と引き換えに20%消費電力を下げることが可能になっている。

 Intelによれば、こうしたアクセラレータやそうした電力効率優先モードを活用することで、電力効率は前世代に比べて2.9倍改善しているということだ。

 XCCではこうしたアクセラレータがCPUタイルに1つずつ搭載される。このため、4つのタイルから構成されるソケット全体でそれぞれ4つのアクセラレータが搭載されていることになる。ただし、すべてのSKUでこうしたアクセラレータが有効になっているのかと言えばそうではなく、例えば最上位SKUとなるXeon Platinum 8490Hでは4種類4つ(合計16個)のアクセラレータすべてが有効になっているが、ほかのSKUでは4種類1つずつ(合計4つ)のアクセラレータが有効になっているなど、どの種類のアクセラレータと何個が使えるかはSKUに依存する(後述するSKU表を参照)。

 Intelは今回の第4世代Xeon SPで新しい仕組みとして「Intel OnDemand」が導入される。これは、CPUに対して専用APIを介して無効になっているアクセラレータやCPUコアなどを有効にする仕組みで、OEMベンダーやCSPなどを経由して提供される有料サービスだ。

 Intel OnDemandに対応したSKUだけで有効だが、ユーザーにすれば購入後にアクセラレータやCPUコアが追加で必要になった場合に購入することができる。購入後に機能を拡張できる仕組みはユニークで、CPUを交換しなくても機能を拡張できることは、OEMベンダーやCSPにとっても新しいビジネスとなる可能性を秘めている。

CPUソケットはLGA4189に、DDR5メモリ、80レーンのPCI Express Gen 5/CXL 1.1に対応

第4世代Xeon SPでは1つの製品で1ソケットから8ソケットまでカバーする(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 今回の第4世代Xeon SPでは、プラットホーム側も大きな拡張が入る。CPUソケットは従来のSocket P+(LGA4189)に代わって、Socket E(LGA4677)が導入される。ソケットが変更されるのは、PCI Expressのレーン数の増加やDDR5という新しいメモリに対応するためで、ピン数が違うことからも分かるように、ソケットの互換性はない。なお、チップセットも強化されており、新しくC741がチップセットとして提供される。

 第3世代Xeon SPでは、1-2ソケットが開発コードネームIce Lake-SP、4-8ソケットが開発コードネームCooper Lakeと2つのラインアップに分割されていたが、第4世代Xeonでは1ソケットから8ソケットまで1つの製品でサポートすることができる。これはXCCでUPIが3つから4つに増やされ、新しい接続トポロジーが導入されたからだ。なお、UPIは第3世代Xeon SPでの12GT/sから転送速度は引き上げられて、16GT/sと強化されている。

 UPIが4コントローラなのはXCCだけあり、MCCは3コントローラであるため4ソケットまでの対応となる。XCCでも8ソケットで利用する場合には、8ソケットまでをサポートするSKUを選ぶ必要がある。

【表2】Xeonのプラットホームの変遷(筆者作成)
ブランド名Xeon 5600番台Xeon E5Xeon E5 v2Xeon E5 v3Xeon E5 v4Xeon SP第2世代Xeon SP第3世代Xeon SP(4-8S)第3世代Xeon SP(1-2S)第4世代Xeon SP
開発コードネームWestmere-EPSandy Bridge-EPIvy Bridge-EPHaswell-EPBroadwell-EPSkylake-SPCascade Lake-SPCooper LakeIce LakeSapphire Rapids
リリース年2010年2012年2013年2014年2016年2017年2019年2020年2021年2023年
製造プロセスルール32nm32nm22nm22nm14nm14nm14nm14nm10nmIntel 7(10nm Enhanced Superfin)
CPUコア(ソケットあたり最大)681218222856284060
ダイ構成(HCC、MCC、LCC)6815、10、618、12、824、15、1028、18、1028、18、1028、18、10非公表60、32、LCCなし
パッケージあたりのダイ数1111111(パッケージ)/2(BGA)114(HCC版)/1(MCC)
L2キャッシュ(コアあたり)256KB256KB256KB256KB256KB1MB1MB1MB1.25MB2MB
LLCキャッシュ(コアあたり)2MB2.5MB2.5MB2.5MB2.5MB1.375MB1.375MB1.375MB1.5MB1.875MB
LLCキャッシュ(ダイあたり最大)12MB20MB30MB/20MB/15MB45MB/30MB/20MB55MB/37.5MB/25MB38.5MB/24.75MB/13.75MB38.5MB/24.75MB/13.75MB38.5MB/24.75MB/13.75MB最大60MB最大112.5
コアマイクロアーキテクチャNehalem世代Sandy Bridge世代Sandy Bridge世代(改良版)Haswell世代Haswell世代(改良版)Skylake世代Skylake世代Skylake世代Sunny CoveGolden Cove
コア間インターコネクト-リングリングリングリングメッシュメッシュメッシュメッシュメッシュ
CPUソケットSocket B(LGA1366)Socket R(LGA2011)Socket R(LGA2011)Socket R3(LGA2011v3)Socket R3(LGA2011v3)Socket P(LGA3647)Socket P(LGA3647)/BGA(5903ball、2ダイ構成)Socket P+(LGA4189)Socket P+(LGA4189)Socket E(LGA4677)
最大ソケット222222/4/82/4/84/822/4/8
最大メモリ容量(ソケットあたり)288GB384GB768GB1.5TB1.5TB1.5TB4.5TB(Optane DCPM利用時)4.5TB(Optane DCPM利用時)4TB(DDRのみ)/6TB(DDR+Optane)4TB(DDR5)/6TB(DDR+Optane)
メモリDDR3-1333DDR3-1600DDR3-1866DDR4-2133DDR4-2400DDR4-2666DDR4-2933DDR4-3200DDR4-3200DDR5-4800(1DPC)/4400(2DPC)
Optane DC Persistent Memory対応------○(200シリーズ)○(200シリーズ)○(300シリーズ)
メモリチャネル数(CPUソケットあたり)3444466/12688
拡張命令:AVXAVXAVX2AVX2/TSXAVX512AVX512 /w Intel DL Boost(VNNI)AVX512 /w Intel DL Boost(VNNI)AVX512 /w Intel DL Boost(VNNI)AVX512 /w Intel DL Boost(VNNI)
拡張命令:AMX対応
QPI/UPI(ダイあたり)2x最大6.4GT/s2x最大8GT/s2x最大8GT/s2x最大9.6GT/s2x最大9.6GT/s3x最大10.4GT/s3x最大10.4GT/s6x最大10.4GT/s3x最大11.2GT/s4x最大16GT/s
PCI Express(CPU側)PCI Express Gen2(チップセット側)PCI Express Gen 3PCI Express Gen 3PCI Express Gen 3PCI Express Gen 3PCI Express Gen 3PCI Express Gen 3PCI Express Gen 3PCI Express Gen 4PCI Express Gen 5
PCI Expressレーン数(CPU側/ソケットあたり)36(チップセット側)4040404064(MCC/LCCは48)48486480
CXL1.1(最大4デバイス)
DMIDMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)DMI/Gen4(8レーン)
チップセット5500(Tyrusburg)C600(Patsburg)C600(Patsburg)C610(Wellsburg)C610(Wellsburg)C620(Lewisburg)C620(Lewisburg)C620A(Lewisburg R)C620A(Lewisburg R)C741
プラットホームの機能(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 メモリはDDR5に変更されている。メモリチャンネルは第3世代Xeon SPと同じ8チャンネルで、1DPC(1DIMM per Channel)であればDDR5-4800、2DPCであればDDR5-4400で利用することができる。256GBのDDR5のR-DIMMを2DPCで利用した場合、1ソケットあたり最大4TBのメモリを実装することができる。

 なお、既にIntelはビジネスのクローズを明らかにしているOptane Persistent Memoryも引き続きサポートされており、最新のOptane Persistent Memory 300シリーズを利用することができる。DDR5とOptaneを組み合わせた場合は1ソケットあたり最大6TBのメモリ容量を利用することができる。

 PCI ExpressはGen 5に強化され、最大80レーンを利用することができる。PCI Expressにコヒーレントの機能を追加したCXL(Compute eXpress Link)のバージョン1.1にも対応しており、Type1とType2デバイスを最大4デバイスまで利用することができる。

TDPは最大350Wに引き上げられる、真価を発揮するにはAMX/HWアクセラレータへの対応が必須

第4世代Xeon SP、左が通常のXeon SP、右がHBM2eのXeon Max。実際にはこういう2ソケットの構成はなく、あくまで展示用

 今回発表された第4世代Xeon SPのSKU構成と価格(参考価格、税別)は以下のようになっている

【表3】SKUと価格(Intelの資料より筆者作成)
対象市場シリーズSKUコア数ベースクロック(GHz)ターボ時最大クロック(マルチコア/GHz)ターボ時最大クロック(シングルコア/GHz)L3キャッシュ(MB)TDP(W)最大ソケット数DDR5速度UPIリンク数DSAQATDLBIAASGX Enclave容量(GB)Intel OnDemand対応ダイ奨励顧客価格(RCP/米ドル)
2Sパフォーマンス汎用Platinum8480+56233.81053502480041111512XCC10710
Platinum847052233.81053502480041000512XCC9359
Platinum8468482.13.13.81053502480041000512XCC7214
Platinum8486Y+4022.83.71053002480041111128XCC5558
Platinum8462Y+322.83.64.1603002480031111128XCC5945
Gold6448Y322.134.1602252480031000128MCC3583
Gold6442Y242.63.34602252480031000128MCC2878
Gold6444Y163.644.1452702480031000128MCC3622
Gold6426Y162.33.34.137.51852480031000128MCC1517
Gold643483.74.14.122.51952480031000128MCC2607
Gold5415+82.93.64.122.51502440031111128MCC1066
2Sメインストリーム汎用Platinum8452Y3622.83.267.53002480041000128XCC3995
Gold6438Y+3222.84602052480031111128MCC3141
Gold6430322.12.63.4602702440031000128XCC2128
Gold5420+2822.74.152.52052440031111128MCC1848
Gold5418Y2422.83.8451852440031000128MCC1483
Silver4416+2022.93.937.5165244002111164MCC1176
Silver4410Y1222.83.930150240002100064MCC563
液冷汎用Platinum8470Q522.13.23.81053502480041000512XCC9410
Gold6458Q323.144603502480031000128MCC6416
1S汎用Gold6414U3222.63.4602501480001000512XCC2296
Gold5412U242.12.93.9451851440001000128MCC1113
Bronze3408J81.81.91.922.5125144000100064MCC415
長寿命(IOT)汎用Silver4410T102.73.4426.25150240002100064MCC624
IMDB/アナリティクス/仮想化最適(ソケット拡張可能)Platinum8490H601.92.93.5112.53508480044444512XCC17000
Platinum8468H482.133.81053308480044444512XCC13923
Platinum8460H402.23.13.81053308480044004512XCC10710
Platinum8454H322.12.73.482.52708480044444512XCC6450
Platinum8450H2822.63.5752508480044004512XCC4708
Platinum8444H162.93.24452708480044004512XCC4234
Gold6448H322.43.24.1602504480031221512MCC3658
Gold6418H242.12.94601854480031001512MCC2065
Gold6416H182.22.94.2451654480031001512MCC1444
Gold6434H83.74.14.122.51954480031001512MCC3070
5G/ネットワーキング最適Platinum8470N521.72.73.697.53002480044440128XCC9520
Platinum8471N521.82.83.697.53001480044440128XCC5171
Gold6438N3222.73.6602052480031220128MCC3351
Gold6428N321.82.53.8601852400031220128MCC3200
Gold6412N321.82.63.6601851440031220128MCC2368
Gold5418N241.82.63.8451652400031220128MCC1664
Gold5411N241.92.83.9451651440031220128MCC1232
クラウド最適化(IaaS -P/SaaS -V/Media ーM)Platinum8468V482.42.93.897.53302480031111128XCC7121
Platinum8458P442.73.23.882.53502480031111512XCC6759
Platinum8461V482.22.83.797.53001480001111128XCC4491
Gold6438M322.22.83.9602052480031002128MCC3273
ストレージ/HCI最適化Gold6454S322.22.83.4602702480044440128XCC3157
Gold5416S1622.84301502440031220128MCC944
HPCMax9480561.92.63.5112.53502480044000512XCC12980
Max94705222.73.51053502480044000512XCC11590
Max9468482.12.63.51053502480044000512XCC9900
Max9460402.22.73.597.53502480034000128XCC8750
Max9462322.73.13.5753502480034000128XCC7995

 今回の第4世代Xeon SPからIntelはSKU構成を、ターゲット市場別にして提供することにしている。2Sパフォーマンス汎用、2Sメインストリーム汎用、液冷汎用、1ソケット汎用、長寿命(IOT)汎用、IMDB/アナリティクス/仮想化最適(ソケット拡張可能)、5G/ネットワーキング最適、クラウド最適化、ストレージ/HCI最適化、HPC(Xeon Maxシリーズ)などのターゲット市場に向けてSKUが用意されている。

 注意したいのはTDPで、従来の第3世代Xeon SPでは最大270Wになっていたが、第4世代Xeon SPではそれが最大350Wに拡張されている。こうした傾向にあるのは第4世代Xeonだけでなく、競合となるAMDの第4世代EPYCも、最上位SKUでは標準で360W、cTDPでは400Wが可能になっており、それだけのTDPの電力量で発生する熱を確実に放熱すると考えると、従来のヒートシンク+ファンという空冷では十分ではない可能性が高い。

 このため、OEMメーカーはヒートシンクをより大型にして、ファンの数を増やして対応するというところが多い。場合によっては液冷、液浸(専用の油に漬けてシステム全体で冷やす冷却方法)などのさらに高効率な冷却システムを検討する場合も出てくるだろう。

 最後に第4世代Xeon SPの性能について説明しておきたい。Intelが公表した第3世代Xeon SPと第4世代Xeon SPとの比較データは以下の通りだ。

Intelが公開した第3世代Xeon SPを基準とした時の第4世代Xeon SPの性能(出典:4th Gen Intel Scalable Processor Architected to Accelerate Real-World Workloads、Intel)

 データベースやWeb、メディアなどではおおむね1.5~2倍程度の性能を発揮し、大きな性能向上が発揮されているのはインメモリデータベースのRockDBの2.93倍などで、この場合にはIAAアクセラレータを有効にした結果2.93倍という結果が得られていると考えることができる。同じことはAI推論のSSD-RN34(RT推論/BF16)の10倍という結果も同様で、こちらはAMXでBF16を利用して演算した場合の結果になっている。

 こうした結果からも分かるように、第4世代Xeonの真価を発揮させるにはAMXなどの新しい拡張命令やハードウェアアクセラレータをソフトウェアが利用できるようにする必要がある。IntelはISV(独立系ソフトウェアベンダー)に対して、AMXやハードウェアアクセラレータを利用できる開発キットを合わせて提供している。第4世代Xeon SPの導入を検討しているのなら、同時に利用しているソフトウェアがAMXやQAT/DLB/DSA/IAAなどのアクセラレータに対応しているかどうかをチェックしておくと良いだろう。