トピック
第5世代インテルXeonスケーラブル・プロセッサーが1世代で驚異的性能向上を果たせた理由
- 提供:
- インテル株式会社
2024年1月22日 06:30
パット・ゲルシンガー氏がCEOとしてインテルに戻ってから、さまざまな事業改革を行なってきた。彼は若い頃にアンディ・グローブ氏と出会い、その時の経験が今日につながっている。ゲルシンガー氏は、グローブ氏とインテルに対しての恩返しのような気持ちでインテルCEOを引き受けたのではないかと筆者は推察する。
さて、ゲルシンガー氏の事業改革の中にはファウンダリサービス、つまり他社の半導体製品の受託製造を請け負うといったことも含まれるが、インテル自身の製品も強くなっているのは着目すべき点だ。2023年末にインテルCore Ultraプロセッサーと、第5世代インテルXeonスケーラブル・プロセッサーという2つの強力な製品が同時に投下された。
前者はコンシューマ向け、後者は企業やデータセンター向けとなる。いずれも今IT業界で最もホットな話題である「AI」に向けた機能改善を多数盛り込んでいるが、それ以外にも見所は多い。
コードネーム「Meteor Lake」ことインテルCore Ultraプロセッサーに関しては筆者もいくつか記事をすでに投稿しているのでそちらもぜひご覧いただきたい。
本稿では第5世代インテルXeonスケーラブル・プロセッサーについて、その全貌を明らかにしていくとともに、なぜこのタイミングで両製品が投下されたのかについても考察する。
直近のインテルXeonスケーラブル・プロセッサーの変遷とロードマップ
まずは最近のXeonスケーラブル・プロセッサー変遷と、インテルが公表している将来製品のロードマップを御覧いただきたい。
発表済みの製品について、日付までは入っていないので補足すると、
- 2021年4月6日: 10nmで第3世代インテルXeonスケーラブル・プロセッサー
- 2023年1月10日: Intel 7で第4世代インテルXeonスケーラブル・プロセッサー
- 2023年12月14日: Intel 7で第5世代インテルXeonスケーラブル・プロセッサー
という登場時期になっており、第4世代製品から第5世代製品への移行が1年以内となっている。進化の内容を見ると、データセンターでの実ワークロードの効率化と電力効率化が確実に進化しているようだ。
実ワークロードに最適化されたパフォーマンス
その堅実に進化している項目を掘り下げてみよう。クライアントPC向けにMeteor Lakeというインテルが40年で一番の進化をしたと自負するCPUが登場した。それに比べると第5世代インテルXeonスケーラブル・プロセッサーは派手さこそないように見えるが、堅実に進化をしたCPUとなっている。
具体的には4つのポイントがある。
- AI向けに設計されたCPU
- ワークロードに最適化されたパフォーマンス
- 電力効率の向上
- イノベーションを加速するデータセキュリティ技術を搭載
これらを中心に第5世代インテルXeonスケーラブル・プロセッサーの進化を説明していくが、まずは第4世代インテルXeonスケーラブル・プロセッサーの特徴をおさらいしよう。
第4世代インテルXeonスケーラブル・プロセッサーは、かなりいろいろ考えられたCPUとなっている。上記スライドの左側はCPUとしてのハードウェアとしての進化になっていて、CPUのコア数、メモリ帯域幅、I/Oの帯域幅、CXLの実装、ソケット拡張性などが分かる。
右側が特徴的な進化をしたアクセラレータ(実ワークロード処理の効率を上げる、史上最大のアクセラレータ搭載になった)、電力効率向上、セキュリティ、マックス・シリーズ用HBM2対応の進化などになっている。
従来のプロセッサーとしての素性の良さと性能向上だけではデーターセンター事業者の期待する進化には足りず、アクセラレータを利用してエネルギー効率を向上しながら性能を上げていくという進化だったと言える。
それを踏まえて、そこから1年も経たないで投入された第5世代インテルXeonスケーラブル・プロセッサーの概要を見ていただきたい。
図の左では第4世代で4つのタイルがEMIBで接続され1つのパッケージになっているのが分かる、一方、第5世代では、2つのタイルが同じくEMIBで接続されている。
第4世代では1タイルで15コアになるので60コアを4タイルで構成し、第5世代は2タイルで64コアということで1タイル32コアということになる。なお、第5世代はソケットで互換があるため第4世代のプラットフォームでCPUの載せ替えで使用できる。
メモリ速度は4,800MT/sから5,600MT/sへ高速化され、キャッシュ周りではラストレベルキャッシュが最大3倍に強化された。メモリスピードやキャッシュサイズが影響するワークロードでは大きな性能向上が期待できるだろう。
UPI(Ultra Path Interconnect)やCXLなどのI/Oも強化された。TDX(インテルトラスト・ドメイン・エクステンションズ)が第5世代ではより多くの製品バリエーションで使用できるようになっている。第4世代で導入された技術をより高性能で広範に利用できるように発展させた形だ。
1世代で驚異的なパフォーマンス向上
通常、CPUが1世代進化した時の性能向上は十数%から20%くらいになることが多い。これはアーキテクチャが進化、プロセス技術が進化、あるいはその両方が進化した場合もそうだった。
今回第4世代から第5世代への移行においては、コアアーキテクチャとプロセスは同世代のものを使用しているという。これはとても興味深いことで、基本的な部分は大きな変更がないにも関わらず、上記スライドにある通り、高い性能向上が確認できるということは、その基本性能以外のところで進化が寄与しているということになる。
言い換えると、第4世代インテルXeonスケーラブル・プロセッサーは、プロセス技術とコアアーキテクチャは元々の性能が非常に高く、メモリの帯域幅、I/Oの帯域幅などのデータの流れが良くなることでさらに性能が上がる設計になっていたことが分かる。改めてインテル開発の底力を感じている。
第4世代と第5世代の比較では、平均的なパフォーマンス向上で21%で、これだけでもすばらしい性能向上なのだが、AI推論、HPC環境で42%~40%向上している辺りは、メモリやキャッシュの効果なのだろう。ネットワーク/ストレージにおける70%の向上はI/Oの性能向上がその大きな理由になっているのだと思われる。いずれにしても基本性能の良さを引き出させるための改善の着目点が素晴らしい。もちろん、第3世代との比較では圧倒的な性能向上になっている。
こういった点からインテルの言っている「実ワークロードの効率化」という意味がよく分かってくる。データセンター向けCPUの性能においては、ワークロードごとにその性能を引き出すアクセラレータやデータストリームが重要になってきていて、ただエンジンの性能を上げるだけでは現在のコンピューティングの進化には間に合わなくなってきているのだということだ。
詳細なワークロードでの性能比較のデータも紹介しておく。どちらのケースもコア数とTDP(熱設計電力)を近いもので比較している。第5世代が優秀なのはよく分かるが、第4世代と競合他社製品で結果の傾向が似ているのは興味深い。つまり、第5世代が、最近のデータセンター向けCPUの期待されているところを切磋琢磨しているのがよく分かる。
第4世代を超えるアクセラレータ性能がどのくらいかを示すデータはこちらになる。
性能と消費電力当たりの性能を併記しているが、このグラフでは第5世代でアクセラレータを使用しない性能を“1”としている。アクセラレータがどれほどの効果があるのかと、エネルギー効率化の実現がとても重要になってきている現在において、アクセラレータの効果で貢献できるようになってきていることも分かる。
電力効率の高いコンピューティングのために設計されたCPU
第4世代インテルXeonスケーラブル・プロセッサーが電力効率の面から見て、第4世代から進化した点は下記の通りだ。
- コアとSoC間インターコネクトの電力効率を高めると同時にプロセスリビジョンを更新
- SoCインターコネクト周波数チューニングの機能拡張
- アイドル時の電力効率にチューニングされた完全統合型の電圧レギュレータ
- アクティブアイドルモードの機能拡張
インテルにプロセスの確認をしたところ、第4世代も第5世代もIntel 7という回答だったが、スライドでは“プロセスリビジョンを更新”となっているのでプロセスの世代的には同じ世代であっても、細かな改良が施されていると考えられる。
I/Oバッファは内部も外部もデータのやり取りで非常に大きな電力を消費するので、その部分の最適化をプロセスのチューニングレベルから最適化を進めていたというのは、電力効率に対する徹底した改善を行なったのだろう。コアとSoC間インターコネクトの電力効率を高めるというのはそれを指す。
それに加えて、SoCインターコネクト周波数チューニングの機能拡張を施している。これはインターコネクト通信を最適化するのに必要十分な電力で通信するための周波数の調整を入れたという意味だと取れる。Meteor Lakeの4タイルを接続するファブリックおいても同様な表現が見られる。タイル構造(チップレット方式)でのインターコネクトの1つの手法になっていくのだろう。
次に、アイドル時の電力効率にチューニングされた完全統合型の電圧レギュレーターについて。負荷がない、あるいは非常に軽い時にコアに対して必要十分な電力を供給する高効率の電圧レギュレーターが統合されているということは、負荷のかかるコアの近いところでの電圧制御が可能になるということで、それだけ制御効率が向上すると考えられる。
それに加え、アクティブ・アイドル・モードの機能拡張によって、最適化電力モードを有効化し、完全統合型の電圧レギュレーターをコントロールすることにより高効率化を実現している。具体的には、前世代と比較したパッケージの消費電力当たり性能の向上は1.34倍、アイドル時のソケット当たりの節電量は約100Wとなるらしい。
負荷の大きさによる消費電力を表わしたのが上図になる。30~40%の使用率レベルで、サーバーの消費電力を最大110W削減できるという点をインテルは強調している。
この電力効率を実際のプラットフォームでどのくらいの節電になるのかを示した結果が下図になる。どちらの結果も4年間使用した場合の推計となっている。第5世代インテルXeonスケーラブル・プロセッサープラットフォーム導入によるTCO削減の効果の大きさが分かる。これは導入企業にとっては見逃せないポイントだ。
AI向けに設計されたCPU
第5世代インテルXeonスケーラブル・プロセッサーはAI向けに設計された。その中核の1つとなるアクセラレータのインテルAMX(アドバンスト・マトリクス・エクステンション)の回路規模は大きく、このエンジンが動作することで消費電力が上がってしまうため、単純に動作周波数を上げるのは難しい。その課題に対し、第5世代では電力効率を上げることで、動作周波数を上げることが可能になった。
また前述の通り、メモリ帯域幅、LLCを増強。加えて、AIソフトウェア最適化環境の提供など、AI処理のためにハードウェアだけでなくソフトウェア環境までも進化させている、まさにAI向けに設計されたプラットフォームだ。
上図は第5世代インテルXeonスケーラブル・プロセッサーでのターボ周波数の改良を示している。ここで紹介している命令セット群は、コアの中でも大きな回路構成を持つものなので、処理を進めるとたくさんの回路が動くことになり、消費電力が上がり、発熱量の上限に到達し、周波数が抑えられることとなる。しかし第5世代では、消費電力効率向上により第4世代の4レベルに対し、ターボ周波数を5レベルに拡張したターボ周波数の制御ができるようになった。
AI処理性能でのベンチマーク結果を見てみよう。
AI処理をレイテンシー(待ち時間とか反応速度)の点から見た結果も紹介しておく。
生成AIの回答での待ち時間について、市場での許容される範囲が100ms以下だそうなのだが、第5世代インテルXeonスケーラブル・プロセッサープラットフォームでは、GPT-J 6BとLlama2 13Bにおいて許容時間よりはるかに早く回答することができることを示している。
プラットフォーマーは、AIワークロードが今後、より一般的なワークロードとして利用されていき、加えてその処理がエッジ側でも行なわれていくという状況に対応する必要がある。そのためインテルは、インテルCore Ultraプロセッサーで、エッジ側のAIワークロード処理効率を大きく引き上げた。そして、エッジでのAIワークロードが増えると、AIへのニーズがさらに高まり、PC以外でのAI処理も増え、結果としてクラウド側でもAI処理用の機能/性能を引き上げていく必要がある。そこを受け持つのが第5世代インテルXeonスケーラブル・プロセッサーだ。
今回インテルは、エッジとデータセンター、両方で必要とされる実ワークロードに対するニーズをしっかりと見極め、CPUのコア部分だけでなく、NPUやアクセラレータなども実装/強化し、そのニーズに応えられる製品を打ち出してきた。これがプラットフォームを問わずユーザーがAIを活用できるようにするインテルの「AI Everywhere戦略」の中核を成す。
ここ数年インテルの製品が少し他社製品にくらべ競争力が落ちてきたように見えていたかもしれないが、今回の製品はインテルの得意とするプロセス技術とハードウェア開発力の両面をうまく融合させ、強いインテルの回帰を象徴する製品群となっていると言えよう。
なお、本稿執筆時点では第5世代インテルXeon プロセッサー搭載サーバー製品として、以下のOEMメーカーからの提供が予定されている。
さらに強力な製品が待ち構えるインテルのデータセンター向け製品
そして2024年以降も、インテルのデーターセンター向けCPUはさらに進化する。第5世代インテルXeonスケーラブル・プロセッサーに続くCPUとして、2つの系統が用意される。E-Coresのみで構成されるコードネーム「Sierra Forest」(シエラフォレスト)と、P-Coresと史上最大のアクセラレータ群で構成される「Granite Rapids」(グラナイトラピット)だ。
E-Coresのみで構成されるシエラフォレストは、高効率コアであるE-Coresをインテル史上最大の288コアまで実装する予定。この製品では電力効率を最大限にすることを実現し、より高密度なコンピューティングの実現に向け機能拡張した製品になる。最高水準の電力性能密度によりクラウドネイティブ・ハイパースケーリングのワークロードで大きな優位性を提供するとのこと。
そして、今までのXeonシリーズを継承する性能とTCO重視の高性能モデルがGranite Rapidsだ。汎用の演算ワークロードに加え、高いコア性能が求められるワークロードに最適という。またAIを含むアクセラレータの強化も予定している。
両製品は、顧客の投資を最大限に活かすためにソケット互換を担保するという。開発は順調でSierra Forestは予定通り2024年前半、Granite Rapidsは同後半に市場投入予定だ。