笠原一輝のユビキタス情報局

「Sierra Forestは誰も追いつけないTCOを実現」。第5世代Xeonに続き、Granite Rapids、Gaudi3などAI関連製品を矢継ぎ早に投入

第5世代Xeonを手に持ちアピールするIntel CEO パット・ゲルシンガー氏

 Intel CEO パット・ゲルシンガー氏は、Intelが開催した記者説明会において「我々が来年投入するSierra Forestは誰も追いつけないようなTCO(Total Cost of Ownership : 総保有コスト)を実現している」と述べ、Sierra ForestのCSP(クラウドサービスプロバイダ)が続々導入しているArmプロセッサと比較して圧倒的な性能と電力効率、価格性能を実現していると強調した。

 直接は言及しなかったものの、11月にMicrosoftが開催したIgniteで発表された「Cobalt」、AWSが開催したre:Invent 2023で発表された「Graviton4」など、Arm の「Neoverse N2」を採用したデータセンター向けのArmプロセッサと比較しての発言だと考えられる。

 また、Intelはこれまで開発コードネーム「Emerald Rapids」で呼ばれてきた「第5世代インテルXeonスケーラブル・プロセッサー」(以下第5世代Xeon)を正式に発表し、販売を開始した。Intelによれば従来製品となる第4世代インテルXeonスケーラブル・プロセッサー(以下第4世代Xeon)と比較して、汎用処理で21%、AI処理で41%の性能向上を実現し、電力効率は34%改善する。

 さらに、来年にはAIアクセラレータの最新製品となる「Gaudi3」を投入し、AI学習時の性能を4倍に高める計画だ。こうしたAI向けの各種製品を矢継ぎ早に投入していくことで、データセンターでのIntelの強みをさらに高める戦略となる。

クライアントPCでも評価が高いEコアを、1ソケットに288コア詰め込んだSierra ForestはArm CPUキラーに

Innovation 2023でSierra Forestを公開するIntel CEO パット・ゲルシンガー氏、1つのパッケージの中に2つのダイが入っていることが分かる。1つのダイに144コアが実装されており、ソケット全体で288コアとなる

 Intelは、9月にサンノゼで開催したInnovation 2023において、Sierra Forestの概要を明らかにしている。Sierra Forestは、Intelが第12世代Coreで導入した「パフォーマンス・ハイブリッド・アーキテクチャ」という2種類のCPUコアのうち、より電力効率が高いEコア(Efficiency Core)だけから構成されたサーバー向けの製品となる。

 このEコアは、従来の「Atomプロセッサー」の流れを汲むCPUデザインなのだが、第12世代CoreのEコア(Gracemont)は、性能が大きく引き上げられており、数世代前のPコアに匹敵するような処理能力を持っていながら、電力効率が圧倒的に高まっていることが最大の特徴だ。

 実際、このEコアを導入することで、第12世代Coreはコア数を増やしながらも、消費電力は増やしていないという特徴を実現しており、第12世代Coreが高い評価を受けている理由が、このEコアの優れたデザインになることは周知の事実だ。

AWSのGraviton4
MicrosoftのCobalt

 Sierra Forestでは、このEコアを利用して1つのダイで144コアのデザインを実現し、さらにパッケージレベルで2つのダイをチップレットの形で混載することで、1ソケットで288コアという驚異的なスペックを実現することになる。

 ちなみに、Neoverse N2のMicrosoftのCobaltは1ソケットで128コア、AWSのGraviton4は96コアであることを考えれば、このSierra Forestの288コアは結構驚異的なスペックであることは窺い知れるだろう。

【おわびと訂正】初出時にMicrosoft Cobalt 100のIPデザインをNeoverse V2としていましたが、正しくはNeoverse N2になります。お詫びして訂正させていただきます。

 現時点ではCobaltも、Graviton4も、そしてこのSierra Forestも、皆「低消費電力」だとアピールするだけで、実際のスペックは明らかにされていないため、比較のしようはない。

 しかし、1つのサーバー機器の消費電力は決まっていることを考えれば、1ソケットで288コアというSierra Forestが、ほかの製品を電力効率や性能の観点で上回っていることを予測することは難しいことではなく、ゲルシンガー氏が「Sierra Forestは誰も追いつけないようなTCOを実現している」と説明することには十分根拠があると考えられる。

 なお、誤解なきように説明しておくと、Armプロセッサが省電力なのは、ArmアーキテクチャというISA(命令セットアーキテクチャ)を採用していることが理由ではない。

 確かにArm製品、特にArmのIPデザイン(CortexやNeoverse)などが電力効率を重視している設計をとっているのは事実だが、それはISAに依存するのではなく、IPデザインを省電力側によせて設計しているためだ。逆に言えばx86 ISAを採用したCPUでも、そうしたデザインをすることは可能で、それが第12世代Coreで採用されたEコア(Gracemont)なのだ。

 Sierra Forestで採用されているEコアがGracemontなのか、それともその後継になるCore Ultraに搭載されているCrestmontなのか、あるいは別のバリエーションなのかは現時点では明らかになってはいないが、Sierra ForestがIntelにとって非常に戦略的な製品であることは間違いなく、電力効率からArmプロセッサを導入するというCSPのトレンドに待ったをかける可能性は高いと言えるのではないだろうか。つまり、Sierra ForestはそうしたArmプロセッサキラーなのだ。

チップレットのダイ構成が変わった第5世代Xeon、コア数増加、LLCが3倍、メモリ高速化が特徴

第5世代Xeonを手に持って紹介するIntel 執行役員 兼 Xeon製品・ソリューション事業部 事業本部長 リサ・スペルマン氏

 そしてIntelは第4世代 Xeonの後継として、第5世代Xeonを正式に発表した。Emerald Rapidsの開発コードネームで知られてきた同製品は、基本的には第4世代Xeonのバリエーション製品となる。

 というのも、第5世代Xeonは、プロセスノード(Intel 7)も内部のアーキテクチャ、CPUソケットも基本的には第4世代と同様(第4世代とピン互換)で、唯一の大きな違いは、チップレットの構造だけだからだ。

第5世代XeonのXCC構成、ダイが2つであることが特徴
第4世代XeonのXCC構成、ダイが4つであることが特徴

 第4世代Xeonでは、4つのダイから構成されているXCCと、1つのモノリシックなダイになっているMCCという2つのダイ構成が用意されていた。第5世代Xeonでも、MCCは同じ1つのモノリシックなダイから構成されており、基本的には同じダイになっているが、XCCは2ダイ構成になっていることが大きな違いになる。

第5世代Xeonの第4世代Xeonから強化ポイント
第4世代と第5世代のダイの違い

 ダイの数が減ったからソケットあたりのCPUコアは減ったのかというと、実はそんなことはなくて、むしろCPUソケット全体で64コアと、第4世代Xeonの最大60コアから増えている。

 なぜそうなのかというと、第4世代XeonのXCCは、ダイ1つあたり15コアを内蔵しており、それが4つで最大60コアになっていた。それに対して、第5世代Xeonの2ダイ(XCC)は、ダイ1つあたり32コアを内蔵しているため、それが2つで最大64コアという計算になるためだ。

CPU内部でのクラスタ構成も変わっている

 また、ダイ内部のLLCも増えている。第4世代XeonのXCCではCPU 1つあたり1.875MBのLCCを搭載しており、15コアのダイ1つあたり28.125MBを搭載している。これが4つで、ソケット全体で最大112.5MBのLCCを搭載している計算になる。

 それに対して第5世代Xeonでは、CPU 1つあたり5MBを搭載しており、1つのダイあたり160MB、ソケットあたりダイが2つになるので320MBというLLCを搭載しており、第4世代Xeonに比べて約3倍のLLCを搭載している計算になる。

 なお、メモリコントローラのデータ転送レートも引き上げられており、第4世代XeonではDDR5-4800(1DPC時)だったのが、DDR5-5600(1DPC時)に引き上げられており、キャッシュと合わせてメモリの低遅延や帯域幅が向上していることも大きな特徴だ。

 第4世代Xeonと同じように、QAT、DLB、DSA、IAAという4つの種類のアクセラレータを搭載しており、それぞれCPUソケットで最大4つを搭載している。このため、XCCでは1つのダイあたりそれぞれ2つずつを実装している計算になる。

 しかし、ダイが2つになったことで、大きな変更もある。1つは、2つのダイが3つのUPIで接続されていることだ。従来の4ダイ構成では、CPUダイ1つあたり4つのUPIがあったが、1つのダイあたり2つのUPIで環状的に接続される構成になっていた。

 それに対して2つのダイが3つのUPIで接続される形になるため、ダイ同士の帯域幅は向上する。さらに、UPIの速度自体も引き上げられており、第4世代Xeonでは16GT/sだったものが、20GT/sになる。

 また、2ダイになることで、ダイのクラスタ構成も単純になり、ソケット内部での遅延は改善していくことになり、結果として性能が向上するとIntelは説明している。

CXL 1.1 Type 3のサポートによりCXLメモリをメインメモリとして利用可能に、TDXは通常SKUでも対応

CXL 1.1 Type 3に対応した

 機能面では2つの改良が加えられている。1つはCXL 1.1 Type3のサポートだ。従来の第4世代XeonではType 1とType 2のみのサポートとなっていたことから比べて改良点となる。Type 3に対応することで、CXLのメモリモジュールを利用可能になる。それにより、通常のメモリソケットで増設するメモリに加えて、CXL経由でCXLのメモリモジュールを利用することでメモリを増設できる。

 2段階と1段階という2つのCXLメモリモードをサポートしており、インメモリデータベース向けには2段階のモードを、帯域幅と容量だけが重要な場合にはシンプルな1段階のモードに設定して利用できる。

CXLに対応したメモリモジュール(Intel Innovation 2023で撮影)

 もう1つの機能面の拡張は新しいデータ保護の仕組みとして、TDX(Trust Domain eXtentions)に、基本的にすべてのSKUで対応していることだ。従来製品でサポートされていたSGX(Software Guard eXtentions)では、アプリケーションレベルでエンクレーブと呼ばれるデータが保護される領域を作成するが、TDXでは仮想マシンレベルでそれを作り出すことが大きな違いになる。

 実は第4世代XeonでもTDXはサポートされていたが、有効にされていたのは一部のCSPにだけ提供された特別版のみだった。今回、一般的なSKUでサポートされるようになったのが大きな違いになる。

TDX
TDXを有効にしても性能低下はほとんどない

性能や電力効率が改善され、大きな性能向上を実現、AI処理ではAMXの活用によりさらに大きな性能向上も

従来世代との性能比較、AIで41%、汎用処理で21%、電力効率で34%改善される

 こうしたCPUダイの構造や内部のデータ転送速度などの引き上げにより、第5世代Xeonは第4世代Xeonと比較して性能向上や電力効率が改善していると説明している。

第5世代Xeonの第4世代Xeonとの性能比較
AMXを利用すると大きな性能向上を実現

 Intelによれば、汎用アプリケーションでの性能は約21%だということだが、Xeonが多用されているAI推論では最大で41%の性能向上が見込めるという。また、ソフトウェアの最適化も日々進んでおり、第4世代Xeonで導入された拡張命令セットである、AMXのSparseを活用すると、Llama-13Bモデルを利用した推論で、第4世代XeonのSparseなしに比べて1.74倍、第5世代XeonのSparseなしに比べて1.52倍の性能を実現すると説明している。

 現状Xeonはデータセンターにおいて、特にAI推論処理に利用されることが多く、それを目的に購入するユーザーも少なくない。そうしたユーザーにとっては、第4世代Xeonからピン互換で置きかえられる第5世代Xeonへアップグレードする効果は小さくないと言える。

電力効率が34%改善
負荷が低いときの電力効率が改善される

 電力効率の改善も第5世代Xeonの大きなメリットと言える。第5世代Xeonではコアの改善やインターコネクトの改善、さらにはVRMの改良などにより、電力効率が第4世代Xeonと比較して34%向上しており、特にアイドル時の消費電力に関して最大で100Wの削減が可能になるという。

 また、サーバーの利用率が低い時には、クロック周波数や電圧などを調整することで、さらに消費電力の最適化が行なわれる。具体的にはCPUの利用率が30~40%にあるとき、最適化を行なわない状態と比較して100W近く電力を削減することに成功しているという。それにより、データセンターへの負荷が低いときの消費電力を削減して電力効率を削減することが可能になる。それにより多くの処理において電力効率を数十パーセントの単位で削減することに成功しているとIntelは説明した。

第5世代XeonのSKU構成

 なお、第5世代XeonのSKU構成は上記の通りで、既にOEMメーカーには出荷が開始されており、本日よりOEMメーカーから販売される予定だ。

2024年にはSierra Forest、Granite Rapids、そしてGaudi3と戦略製品を続々と投入へ

IntelのXeonロードマップ

 Intelのデータセンター向けCPUは、2024年前半には前述のSierra Forestが投入され、そのすぐ後には第5世代Xeonの後継となる「Granite Rapids」も控えている。

Gaudi2

 さらにIntelは、2024年に新しいAIアクセラレータとなるGaudi3を投入する。今やAIアクセラレータは、AI学習用の演算装置としてのGPUの代替として大きな注目を集めている。

 AWSは11月末のre:Invent 2023でTrainium2と呼ばれる第2世代AI学習アクセラレータの投入を明らかにしたし、同じく11月に開催されたMicrosoft IgniteではMicrosoft独自設計のAIアクセラレータの「Maia」が発表され、Googleも8月末のGoogle Cloud Next '23において「TPU v5e」を発表し、さらに先週のGeminiにあわせて「TPU v5p」を発表するなど、CSPにとって巨大化し続ける生成AIのモデルを学習させるインフラとしてAIアクセラレータは必要不可欠のデバイスになりつつある。

 Intelはこの市場に買収したHabana Labsが設計したGaudiシリーズで参入している。現在の最新製品はGaudi2で、従来は学習用のGaudiシリーズと、推論用のGoya/Grecoと分離していたのだが、推論用の製品は既に廃止され、Gaudiシリーズが学習・推論の両方をサポートする製品と位置づけられている。

Gaudi3の特徴
Gaudi3では液冷が導入される
Gaudiのロードマップ

 Intelは2024年にGaudi2の後継製品として、Gaudi3を投入する計画を明らかにした。Gaudi3は5nmのプロセスノードで製造され、BF16の処理性能が4倍になり、チップ間のインターコネクトの帯域は2倍に、そしてHBMメモリの帯域幅も1.5倍になる。

 さらには、Gaudi3のポッド(従来はクラスタと呼ばれていたEthernetなどで接続された複数のサーバーやラックから構成されるスーパーコンピュータのこと)は、液冷が標準になり、ポッド全体の消費電力の削減が可能になり、顧客のTCOを削減することを可能にする。

 このように、Intelは電力効率が大きく改善されるSierra ForestでサーバーでもArmプロセッサというトレンドをつぶしに来て、第5世代XeonやGranite RapidsでAMDのEPYCとの競合に勝ち、そしてGaudi3でNVIDIAやAMDのGPU、そしてCSPのAIアクセラレータに対抗するというのが全体的な戦略になる。

 特にSierra Forestは、CSPのArmプロセッサに比べて高い電力効率を実現する可能性が高く、その値段次第ではCSPも考え方を変えてくる可能性は十分にあると思う。