笠原一輝のユビキタス情報局
P-core搭載Xeon 6の詳細。AI推論でAMD EPYCを大きく上回る
2024年9月25日 14:00
Intelは9月24日(米国時間)に、Granite Rapidsの開発コードネームで開発してきた「P-core搭載インテルXeon 6プロセッサー」(以下P-core搭載Xeon 6)を正式に発表した。
本記事ではP-core搭載Xeon 6の技術的詳細、さらには公表されたた性能などについて紹介し、データセンター向けCPUの市場動向などに関しても考えていきたい。
6月のE-core搭載Xeon 6発表に続いて、投入されたP-core搭載Xeon 6
Intelは現行世代の製品となるXeon 6より、CPUアーキテクチャとしてPコアを搭載した製品、Eコアを搭載した製品の2つのCPUアーキテクチャを併存させる戦略をとっている。Xeon 6世代では、Core Ultraシリーズ1(Meteor Lake世代)のPコアになる「Redwood Cove」、Eコアになる「Crestmont」がCPUアーキテクチャを採用している。
クライアントPC向けのCPUでは、このPコアとEコアを異種混合(ヘテロジニアス)に搭載しており、OSが発行するスレッド(CPUに命令を実行させる単位)を用途に応じて動的にPコア、Eコアに割り当てて実行している。しかし、Xeon 6ではそうした異種混合の製品は用意されない。なぜかと言えば、サーバーでは種類が異なるワークロードが混在するという例はあまり多くなく、クライアントPCのようにアイドル状態の時間も短いので、低消費電力でCPUを動作させる必要などがあまりないからだ。
Intelは6月のCOMPUTEX 2024で、EコアだけのE-core搭載Xeon 6を既に発表している。発表されたのはE-core搭載Xeon 6のうち、CPUのダイが1つで144コア構成になるE-core搭載Xeon 6 6700Eシリーズだ。
それに対して今回発表されたのは、PコアだけのP-core搭載Xeon 6の最上位シリーズにあたるP-core搭載Xeon 6 6900Eシリーズになる。後述するがP-core搭載Xeon 6にはほかにも6700Pシリーズ、6500Pシリーズ、SoCシリーズ、6300Pシリーズなどが用意されており、それらは来年(2025年)の第1四半期に投入予定となっている。
4つのバリエーションがあるP-core搭載Xeon 6
Xeon 6のPコア版とEコア版のどちらも、複数のコンピュートダイ(Compute Die)と2つのIOダイ(I/O Die)を1つのパッケージ上で混載している「チップレット」構造を採用している。そのベースはIntelの2.5Dのパッケージ混載技術になるEMIB(Embedded Multi-die Interconnect Bridge)。IntelはEMIBを第4世代インテルXeon スケーラブル・プロセッサー(以下第4世代Xeon SP、Sapphire Rapids)と、その改良版になる第5世代Xeon SPにおいて既に利用しており、Xeon 6でのEMIB利用はそれに次ぐ2.5Dチップレットの活用になる。コンピュートダイはIntel 3、IOダイはIntel 7で製造される。
Xeon 6ではPコア版も、Eコア版も、同じ2つのIOダイの間にコンピュートダイを挟み込む構造になっている。ソケットとI/Oは共通になっており、マザーボードはPコア版もEコア版も共通で利用できる。そのダイバリエーションは、以下のようになっている。
Xeon 6のコンピュートダイは、Pコア版もEコア版もCPUコア+メモリコントローラという構造になっている。プラットフォーム全体としては6900シリーズ(よりパッケージが大きなパッケージになっている)は12チャンネル、6700シリーズは8チャンネルとなっているため、CPUコアとメモリコントローラの構造は上記の図1のようになっていると想定される。実際には、Intelはダイのバリエーションを公開していないので、そのこの図で示している構成は筆者の推定となる。
Eコア版の方はシンプルで、144コア版(1ダイ)と288コア版(2ダイ)という2つのバリエーションなので、図1のように144コア版にはコンピュートダイに8つのメモリコントローラが搭載されている形になっていると推定される。288コア版は16のメモリコントローラがある計算になるが、プラットフォーム(マザーボード)レベルでは12チャンネルのサポートになるので、4つのメモリコントローラが無効にされていると考えられる。
Pコア版の方はもう少し複雑で、コンピュートダイとIOダイの組み合わせは、IntelがUCC、XCC、HCC、LCCと呼んでいる4つの構成が用意されている。Intelが公開したスライドを見る限り、UCCとXCCに採用されているコンピュートダイは同じ大きさで、HCCに採用されているダイはUCCとXCCに採用されているダイよりやや大きめ、そしてLCCに採用されているダイは小さめになっている。HCCも、LCCもメモリは8チャンネルだと仮定すると、Pコア版には、以下の3種類のダイがあると推定される。
UCC/XCCに採用されているダイ | HCCに採用されているダイ | LCCに採用されているダイ | |
---|---|---|---|
CPUコア数 | 最大48? | 最大48 | 最大16 |
メモリコントローラ | 4 | 8 | 8 |
むろん、これはHCCとLCCのメモリコントローラがプラットフォームの最大数である8チャンネルであると仮定した場合で、実際に製品が出る時には4チャンネルのみのサポートである場合などには、メモリコントローラはHCCとLCCのダイも4つである可能性はある。ただ、HCCのダイのイラストはUCC/XCCのダイに比べてやや大きめになっており、HCCの方はコア数なりメモリコントローラなりが増やされている可能性は高い。
なお、今回発表されたP-core搭載Xeon 6 6900EシリーズはUCCをベースになっており、最大128コア構成になっている。3つのダイで128コア構成だから、割り算では1つあたり約42.67コアという計算になる。もちろん物理的なコアは割れないので、実際には43+43+42=128などの構成になっていてと推定される。
もっとも、実際にはもっと柔軟な組み合わせになっている可能性もあり、たとえばアーキテクチャデザイン上は48コアという仕様になっていて、41+44+43=128、38+46+44=128など、より柔軟な構成が可能なようになっている可能性も当然ある。L3キャッシュが504MB(1つのダイあたり168MB)という容量になっていることから想定するに、CPUコア1つあたり3.5MBだと48コアで168MB、CPUコア1つあたり4MBだと42コアで168MBという計算になる。
CPUコアのロジック部分は無効にされても、L3キャッシュ部分はそのまま使われるのが一般的なので、こうした計算が成り立つ。42コアだと3つのダイで126コアにしかならないので、3.5MBのL3キャッシュ×48コアで504MBと考えるのが一番しっくりくる。このため、ダイのデザイン上は48コアというである可能性が高いと考えられる(ちなみに同じRedwood Coveを採用しているCore Ultraシリーズ1のPコアは、CPUコア1つあたり3MBのL3キャッシュ)。
こうした仕組みにしておくと、製造上の柔軟性は上がるので、歩留まりの向上を期待できる。仮に48コアのダイを製造して、そのうちコアのいくつかを無効にすると良品になるのなら、歩留まりが向上し、製造コストを抑えながら製品を製造できる。504MBというL3キャッシュの容量からはそうしたことをIntelが裏側でやっている可能性を見て取れる。
また、今回発表されたのはUCCだけだ。XCC、HCC、LCCは来年の第1四半期の投入が予定されている。XCC、HCC、LCCなどの詳細はその時点で明らかになるだろう。
メモリコントローラがCPUダイに統合。MRDIMMやCXL 2.0対応でメモリ柔軟性が向上
Xeon 6ではメモリコントローラがコンピュートダイに統合されており、IOダイにメモリコントローラを搭載しているAMD EPYCとは構造上の大きな違いになる。
CPUダイにメモリコントローラを統合しておくメリットは、メモリにアクセスする際のレイテンシ(遅延)が少なくなることだ。
AMDのEPYCのようにIOダイにメモリコントローラを統合すると、キャッシュコヒーレンシ(キャッシュやメモリ間でデータの同期を取ること)が容易になり、帯域幅の観点などではメリットがある。しかし、その反面、CPUからメモリへのアクセスは遠くなるので、メモリ遅延が大きくなってしまう。その意味で、Xeon 6のようにCPUダイにメモリコントローラを統合しておくことは大きなメリットにつながる。
逆に、ほかのコンピュートダイに接続されているメモリにアクセスする時には、内部インターコネクトなどを経由してアクセスする必要があるため、どうしても遅延が増えてしまい、性能が低下する。そのため、P-core搭載Xeon 6ではSNC3とHEXという2つのクラスタリングモードが用意されている。
SNC3は、基本的にはローカルのコンピュートダイに内蔵されているメモリコントローラに接続されているメモリにアクセスし、低遅延を実現するモードだ。それに対してHEXは、ほかのコンピュートダイに接続されているメモリにアクセスすることが可能で遅延は増えるが、より多くのメモリを活用できる。通常はSNC3モードが標準で、オプションとしてHEXモードを有効にできる。
メモリモジュールは通常のR-DIMMだけでなく、新しくJEDECで規定されたMRDIMM(Multiplexed Rank DIMM)を利用できる。MRDIMMは、1チャンネルあたりに2つのランク(ランク0とランク1)を持ち、データ伝送を多重化することで、1つのチャンネルあたりのデータレートを2倍にできるメモリモジュール。現状では8,800MT/秒相当の帯域幅を実現できる。R-DIMMの上位バージョンになるDDR5-6400に比べて最大で33%帯域幅などが向上するとIntelは説明している。
MRDIMMはMicron TechnologyなどのDRAMベンダーが既にサンプル出荷を開始しており、より大容量ないしは広帯域幅のメモリが必要なユーザーにとっては新しい選択肢となりそうだ。
また、CXL 2.0に対応することもメモリ周りでは見逃せないアップデートとなる。CXLは物理層にPCI Expressを利用し、キャッシュコヒーレンシを可能にしたプロトコルを載せたI/Oの仕様となる。ハードウェアはPCI Expressをそのまま流用可能で、ファームウェアなどのレベルでCXLに対応することで利用できる。
第5世代Xeon SPではCXL 1.1対応で、「CXL memory Type 3」をサポートしたが、Xeon 6ではCXL 2.0でサポートされるフラットメモリモードと呼ばれる新しいモードが追加される。これにより、インメモリデータベースなどを利用している際の性能を向上させることができる。
こうしたニーズには従来はOptaneのようなSCM(Storage Class Memory)が利用されてきたのだが、今後はその代替としてCXL memory Type 3が活用されていくことになるだろう。
なお、第4世代Xeon SP/第5世代Xeon SPで搭載された各種アクセラレータ(DSA、IAA、QAT、DLB)はIOダイに接続されており、引き続きXeon 6世代も利用することが可能だ。また、I/O周りでは第5世代Xeon SPでは20GT/sのUPIがソケットあたり最大4リンクになっていたが、Xeon 6では24GT/sのUPIがソケットあたり6リンクになっており、2ソケットだけでなく、今後発表される製品で対応される予定の4ソケットや8ソケット時の性能が向上していることが大きな特徴になる。なお、PCI Expressレーンはソケットあたり96レーン。
第5世代Xeonと比較して性能2~3倍に、AI推論性能では第4世代EPYCと比較して3~5倍とIntelは主張
P-core搭載Xeon 6では、6月に発表されたE-core搭載Xeon 6ではサポートされていなかった2つの拡張命令に対応している。1つはAVX-512であり、もう1つがAMX(Advanced Matrix eXtentions)だ。これはEコア版のCPUであるCrestmontがAVX-512とAMXに対応していないためで、それの拡張命令セットを活用しているユーザーにとっては、引き続きP-core搭載Xeon 6が唯一の選択肢となる。
従来製品との比較という意味では、AVX-512もAMXも第5世代Xeon SPでサポートされていたので大きな違いはない。今回のP-core搭載Xeon 6ではソフトウェア的なアップデートは、AMXがFP16の精度に対応したことだ。
従来のAMXは、INT8とBF16(Bflot16)のデータ精度に対応しており、INT8とBF16を利用したAI推論演算で大きな性能向上を実現していた。今回のXeon 6ではそれに加えてFP16に対応したため、FP16を利用してAI推論を行なっているAIアプリケーションで、INT8やBF16に精度を変更しなくても大きな性能向上を期待できる。
P-core搭載Xeon 6 6900シリーズは、TDPが500W(一部モデルは400W)に引き上げられている。TDPというのは消費電力そのものではなく、あくまで熱設計時にその電力がかかった時に規定のクロックで動作し続けられるように放熱機構などの設計をしなければならない数値に過ぎないが、TDPが引き上げられることは、結局のところCPUがより高いクロックで動作し続けられるということを意味しているので、絶対的な消費電力が従来製品よりも増えることになる。
しかし、Intelによれば、従来のTDP 350Wの第5世代Xeon SP(64コア)とTDP 500WのP-core搭載Xeon 6 6900シリーズ(128コア)を比較すると、同じような負荷状態で、電力当たりの性能は1.9倍になっているという。つまり、同じ消費電力しか使わないと仮定すると、性能は約2倍になっているということができる。ただ、前述の通りTDPは上がることになるので、液冷の導入など放熱機構の強化は検討する必要があるだろう。
P-core搭載Xeon 6は第5世代Xeon SP(Xeon 8592+/64コア)と比較して、性能では2~3倍、電力効率では1.44~2.16倍の性能を発揮するという。競合になるAMDとのAI推論時の性能比較では、EPYC 9654(96コア)と比較して、P-core搭載Xeon 6(6972P/96コア)はLLM ChatBotで3~4倍、LLM Summarizationで2.4~3.6倍、Language Processingで4.3倍、Recommendation Systemで4倍、Image Classificationで5.5倍の性能を実現するとアピールしている。
なお、AMDとの比較という意味では、10月にAMDが第5世代EPYCを発表する見通しであることには留意した方がいい。AMDは、6月のCOMPUTEX 2024で第5世代EPYC(開発コードネーム:Turin)を本年後半にリリースする意向を表明しているが、既に米国時間10月10日に発表会「Advancing AI 2024」を行なうことを明らかにしており、次世代のInstinctとEPYCを発表すると意向を表明している。
IntelはAMDがCOMPUTEXで発表したスコアなどから、Intelの最適化キットを利用して最適化すればAI推論の性能でP-core搭載Xeon 6がTurinを上回るとするデータを公開しており、引き続きソフトウェアの最適化を含めて両社の競争は続いていくと考えられる。