笠原一輝のユビキタス情報局

見えてきた次々世代Xeon。チップレット進化でAMD/Armに対抗

Intelの将来のXeon製品となるGranite Rapids/Sierra Forestはより進んだチップレットを採用(出典:Intel)

 Intelは、半導体向けのカンファレンス「Hot Chips 2023」において発表する概要を明らかにした。Intelは毎年Hot Chipsで同社の最新製品に関する発表などを行なっている。今年(2023年)は次々世代のXeon スケーラブル・プロセッサー(以下Xeon SP)となる開発コードネーム「Granite Rapids」および、同社サーバー向け製品として初めて「Eコア」CPUを採用する製品となる開発コードネーム「Sierra Forest」の概要を発表する。

 いずれの製品も、Intelの2.5Dのチップレット技術EMIB(Embedded Multi-die Interconnect Bridge、イーミブ)を採用して、複数のコンピュートタイル(複数のCPUコアとメモリコントローラから構成されるCPUダイのこと)および、複数のIOタイル(UPI、PCI Express、CXLなどから構成されるI/Oを実現するダイ)が1パッケージ上で構成される。AMDの第4世代EPYC(開発コードネーム:Genoa)に近い構造になり、より柔軟に製品構成や製造が可能になる。

Intelのデータセンター向け製品にとっての脅威

AMDの第4世代EPYC

 サーバー向けCPUはこれまで、Intelの牙城と言ってよい市場で、一時期はIntelが90%を超えるマーケットシェアを持っており、事実上の独占市場になっていた。しかし、近年はAMDの市場シェアが伸びている。AMDのサーバー関連の売上は、昨年(2022年)が60億ドルで、これは2021年の39億ドルから64%という高成長率だ。

 2022年のサーバー市場全体の成長率はIDCによれば20%となっている。それを上回る成長を見せたということは、Intelの市場シェアが食われているということになる。

 Intelにとってもう1つの脅威は、Armプロセッサの台頭だ。同じくIDCの発表によれば2022年時点でIntelとAMDを足したx86プロセッサの売上が約1,100億ドル、Armプロセッサの売り上げが約122億ドルとなっており、売上高ベースで約10%程度の市場シェアがあることになる。2010年代の半ばはほとんどゼロに近かったことを考えれば、こちらも急速に立ち上がっている印象だ。

 実際、いずれの市場でも理由は異なるものの、Intelの顧客となるAWSやAzure、GCPなどのCSP(クラウドサービスプロバイダー)やエンタープライズなどが移行を始めている。

 たとえば、6月にOracleは、「Oracle Exadata X10M」というクラウドベースのデータベースサービスに、従来製品で採用していたXeon SPに替えて、第4世代EPYCを採用することを発表した。

 言うまでもなくOracleのデータベースは、エンタープライズにおいてミッションクリティカルなサービスを提供するのに利用される。金融系や勘定系などのサービスを提供する基盤となるため、CPUの採用では何よりも信頼性が重視される。そこで第4世代EPYCが採用されたことは、AMDの躍進を印象づけた。

 Armプロセッサが注目されているのは電力あたりのCPU密度が高いためだ。同じ電力でも、格納できるCPUが増えると、VMの性能を引き上げることができる。電力あたりの性能は、ロシアのウクライナ侵攻により、欧州でエネルギー危機が起きたことなどにより一層注目を集めている。

AWSのGraviton 3/3E

 AWSが提供するArmプロセッサ「Graviton」はその代表例と言える。Gravitonに関しては以前の記事で取り上げているので、詳しくはそちらをご参照いただきたいが、簡単に言えば電力効率に特化した製品で、CPUの密度(具体的には1つのCPUで64コア)を上げることで、x86プロセッサと比較して電力効率と密度を上げることができている。

新しいチップセットの区切り方を採用するXeon

IntelのサーバーCPUロードマップ、Granite RapidsとSierra Forestは来年投入される製品(出典:Intel)

 IntelにとってサーバーCPUの事業が収益の大きな柱である以上、市場シェアを浸食するAMDとArmプロセッサ勢(AWS GravitonやAmpere Altraなど)に明快に対抗できる製品が必要になる。Intelが2024年に計画しているGranite Rapidsは前者に対抗する製品、Sierra Forestは後者に対抗する製品となる。

 AMDに対抗するGranite Rapidsの鍵となるのは、より進化したチップレットの構造だ。Intelによれば、Granite RapidsおよびSierra Forestのチップレット技術は、現行製品である第4世代Xeonスケーラブル・プロセッサー(開発コードネーム:Sapphire Rapids、以下第4世代Xeon SP)で導入されたEMIBが利用されている。大きな違いとして、Intelがタイルと呼ぶそれぞれのダイのパーテショニング(区切り方)が異なっている。

 第4世代Xeon SPはEMIBを活用してチップレット構造を採用し、最大コア数である60コア製品の場合、15コアCPUを持つコンピュートタイルをパッケージ上に4つ実装することで、1つのCPUを構成している。

 第4世代Xeon SPでは、1つのタイルにはCPUコア、2チャネルのメモリコントローラ、複数種類のアクセラレータ、PCI Express Gen 5コントローラ2つが搭載されており、そのタイルが4つパッケージ上に搭載されることで15コア×4で60コアCPU、2×4で8チャネルのメモリコントローラ、2x4で8つのPCI Expressコントローラというスペックをパッケージ全体で実現している。

Granite Rapids/ Sierra Forestのチップレット(出典:Intel)
第4世代Xeon SP、第4世代EPYC、Granite Rapids/ Sierra Forestの区切り方の違い(筆者作成)

 この構造だと、CPUコア数を増やしたければI/Oも増やす必要があるし、I/Oを増やしたければCPUコア数を増やす必要がある。逆にいうと、CPUコア数は据え置きつつI/Oだけ増やしたい、あるいはI/Oは据え置きつつCPUコアだけ増やしたいという構成は難しい。

 それに対して、AMDの第4世代EPYCでは、CPUダイ(AMDの言い方ではCCD)とメモリコントローラとPCI Expressコントローラから構成されているI/Oダイ(IOD)に分割されているので、I/Oダイは据え置きで、CCDの数だけ増やしてCPUコア数を増減することができる。

 これが、第4世代EPYCで最大96コアの製品から、メインストリームの32コア、さらには8コアといったCPUコアが少ない製品まで柔軟に製品バリエーションを展開できている理由であり、1つ1つのダイの面積を小さくおさえることができるので、歩留まりが向上し、製造コストも抑えることができる理由だ。

 今回Intelが発表したのは、Granite RapidsおよびSierra Forestでは、コンピュートタイル(CPUダイ)とIOタイル(I/Oダイ)を分離することで、より柔軟な高性能を可能にしたチップレット構造を導入する点だ。

 しかし、AMDの第4世代EPYCではCPUコアにはメモリコントローラを内蔵させず、IOD側にメモリコントローラを搭載しているが、Granite Rapids/Sierra Forestではメモリコントローラは依然としてCPUタイル側に残してある。これはメモリレイテンシの削減やコヒーレンシ時の内部バスの帯域圧迫などを避ける意味でこうした設計になっていると思われる。設計上の柔軟性はAMDの第4世代EPYCに劣ると考えられるが、メモリ周りの性能という意味ではGranite Rapids/Sierra Forestの方が有利だ。

 ソケット構成はGranite Rapidsが1ソケットから8ソケット、Sierra Forestが1ソケットから2ソケットまでという構成になり、メモリは最大12チャンネル構成でDDR5/MCRに対応し、1チャネルあたり1-2DIMM構成となっており、I/Oは最大で136レーンのPCI Express 5.0ないしはCXL 2.0、および最大6つのUPIリンクというのがI/O周りの構成だ。

 なお、Intelは今年中に、第5世代Xeonスケーラブル・プロセッサーとしてEmerald Rapidsを投入すると既に明らかにしている。このEmerald Rapidsは基本的には第4世代Xeon SPことSapphire Rapidsの改良版で、基本的な構造(コンピュートタイルが4つから構成される)などは同様になる見通しだ。

Granite Rapidsではマイクロアーキテクチャを改善

 第4世代Xeon SP、そしてその改良版となるEmerald Rapidsは、第12世代Core(Alder Lake)で導入されたPコアであるGolden Coveをベースにサーバー向けにしている。

Granite Rapidsの性能(出典:Intel)

 Granite Rapidsも、同じようにPコアがベースになる性能重視のCPUコアが採用される。Intelによれば、Granite RapidsのPコアは、第4世代Xeon SPで導入されたAMXにも拡張が加えられ、新たにFP16の精度に対応し、マシンラーニングの性能が向上するという。

 ハードウェア的には分岐予測や予測ミス発生時のリカバリ性能などが引き上げられ、浮動小数点演算の乗算が従来の4~5クロックサイクルから3クロックサイクルに高速化されるなどIPC(Instruction Per Clock-cycle)が引き上げる改良が加えられる。

 こうしたマイクロアーキテクチャなどの改良で、AIでは性能が2~3倍となり、また、メモリが最大12チャネルに強化(第4世代Xeon SPでは最大8チャンネル)されることで、メモリ帯域幅は2.8倍に強化される。

Sierra ForestはEコアを採用して密度を2.5倍に向上

Granite RapidsのPコア(出典:Intel)

 Armプロセッサ勢に対抗する製品となるのが、Sierra Forestだ。今回IntelはGranite Rapids、Sierra Forestにおいて異なる種類のCPUコアを採用する。Granite Rapidsに関してはPコアに相当するCPUコアを採用するが、Sierra ForestではクライアントPC向けCPUのEコアを採用する。

Sierra ForestのEコア(出典:Intel)

 IntelのクライアントPC向けCPUは、Alder Lakeでライバルとの差を急速に縮めたと評価が高いが、実はその理由の大部分はEコアの優秀さにある。

 Alder LakeのEコアである「Gracemont」は、従来世代の「Tremont」と比較して大幅に性能を向上させており、4コアのGracemontは2コアのSkylake(Pコアの祖先となるCPU)と比較して、同じ消費電力であれば80%高速で、同じ性能であれば80%低い消費電力で動作させることができる。

 また、4コアのEコアは、ダイ上に占める面積でPコア1つに相当する。要するに性能あたりの電力効率が高く、かつダイに占める面積を小さくすることができるので、CPUコア数を増やすことが容易になるのだ。

 Sierra ForestではそうしたEコアを採用しており、Intelが公表したスペック(64KBのL1命令キャッシュ、6ワイドのデコーダ、5ワイドアロケート、8ワイドリタイア、2コアないしは4コアが最大4MBのL2キャッシュをシェア)を見る限りは、Gracemontのデザインにかなり近く見える。ソフトウェア的にはBF16/FP16への精度変更をサポートしているほか、AVX256に対応しAVX-IFMA、AVX-DOT-PROD-INT8などに対応している。

Sierra Forestの性能(出典:Intel)

 そうしたEコアを採用したSierra Forestを利用すると、CPUコアの密度を大幅に引き上げることができる。Intelによれば、第4世代Xeon SPと比較して、同じラックあたりのvCPU数(仮想CPU数)は2.5倍になるという。つまり、従来のラックで1,000個のCPUコアが搭載できたラックなら、それが2,500個に増やすことが可能になるということだ。VMwareのような仮想化ソフトウェアでは、物理CPUの数が性能でモノを言ってくるので、大きな効果があるということだ。

コンピュートタイルはIntel 3、IOタイルはIntel 7で製造

 Granite Rapids、Sierra Forestともに、コンピュートタイルはIntel 3で、IOタイルはIntel 7で製造される。

 Intel 3は、今年後半に発表が予定されているMeteor Lakeのコンピュートタイルの製造に利用されているIntel 4(従来の数え方なら7nm)の改良版となるプロセスノード。回路のピッチがより小さくなり、EUVの利用率が向上し、プロセスノードとしての性能がIntel 4よりも向上するプロセスノードとなる。Intel 4は既に立ち上げ完了、Intel 3は今年後半に製造が開始され、来年に立ち上がるプロセスノードとなる。

 クライアントPC向けのMeteor LakeではIOタイルはTSMCで製造される6Nを利用しているが、サーバー製品のGranite Rapids、Sierra Forestは、既に大量生産が行なわれ、成熟したプロセスノードであるIntel 7で製造される。

 Intelによれば、来年の前半にSierra Forestが、そのすぐ後にGranite Rapidsの投入が計画されている。いずれも予定通り投入できる見通しだ。