ニュース

Meteor Lakeの内蔵GPUは3世代ぶりのアーキテクチャ更新

Meteor Lakeの内蔵GPUは、単体GPU「Arc」から多くの機能を引き継いで高性能化している

 Intelは、9月19日(現地時間)よりアメリカ合衆国 カリフォルニア州 サンノゼ市にあるサンノゼ・コンベンションセンターで、同社の年次イベント「Intel Innovation 2023」を開催する。Intelはその開幕にせんだって報道発表を行ない、同社が年内に発表を予定している次世代クライアントPC向けプロセッサ「Meteor Lake」の概要を明らかにした。

 3Dチップレット技術Foverosにより、Meteor Lakeは4つのチップから構成されており、そのうちの1つが内蔵GPUの役割を果たす「グラフィックスタイル」だ。Intelは第11世代インテルCoreプロセッサ(以下第11世代Core)で、「Xe-LP」の開発コードネームを持つ内蔵GPUを投入したが、その後2世代はXe-LPに据え置きになって新しいGPUは導入されてこなかった。

 今回のMeteor Lakeでは、「Xe-LPG」という開発コードネームを持つ新アーキテクチャのGPUが採用されており、単体GPUとして昨年IntelがリリースしたArc Aシリーズ(開発コードネーム:Alchemist、Xe-HPG)の機能を受け継いでおり、第11世代Coreなどに採用されているXe-LPに比べて性能が倍になっていることが特徴だ。

スライスは2倍になり、実行ユニットは96から128へと1.33倍

第11世代/第12世代/第13世代Coreに内蔵されていたXe-LPから性能が倍になるXe-LPGへと進化

 第11世代Core、および第12世代インテルCoreプロセッサ(以下第12世代Core)、第13世代インテルCoreプロセッサ(以下第13世代Core)に内蔵されていた内蔵GPUとなる「Xe-LP」と今回発表された「Xe-LPG」、そして昨年(2022年)Intelが導入した単体GPUのArc Aシリーズ(開発コードネーム:Alchemist)とのハイレベルでの違いを表にすると以下のようになる。

【表1】Xe-LPとXe-LPG、Alchemistの違い
Xe-LPXe-LPGXe-HPG(Alchemist)
Xeスライス128
Xeコア/スライス644
Xeコア6832
実行ユニット/Xeコア161616
実行ユニット(EU/XVE)96128512
行列演算器(XMX)未搭載未搭載512
ジオメトリパイプライン128
サンプル6832
レイトレーシングユニット-832
プロセスノードIntel 10nm/Intel 7TSMC N5(5nm)TSMC N6(6nm)

 ハイレベルでのXe-LPとXe-LPGの違いは、内部構造の違いだ。Xe-LPでは内部構造を大きい方から言うと、スライス、コア、実行エンジンという形で構成されている。Xe-LPでは1つのスライスに、その中に6つのXeコア、ジオメトリエンジン、ラスタライザ、ピクセルディスパッチが1つずつ、そしてピクセルバックエンドが3つあり、さらにXeコアの中に16個のEUが用意されるという形になっていた。

 それに対してXe-LPGはそもそもスライスが2つあり、そのそれぞれのスライスに4つのXeコア、ジオメトリエンジン、ラスタライザ、ピセクルディスパッチが1つずつあり、ピクセルバックエンドが2つあるという形になっており、さらにXeコアの中にXVE(Xe Vector Engine)が16個ある形になっている。

【図1】Xe-LPとXe-LPG、Alchemistの違い(筆者作成、説明のために簡略化してある)

 こうした違いを簡略化してまとめた図が上の図1になる。Xe-LPGはスライスあたりのXeコアは6から4に減っているが、スライスは1から2に増えているので、Xeコアは6から8に増え、それに合わせてEU/XVEが96から128に増加している。

 また、従来スライスあたりに1つずつだったジオメトリエンジン、ラスタライザ、ピクセルディスパッチなどが倍になり、ピクセルバックエンドも合計4つに増えている。こうした演算器が各所で増えているのがXe-LPGの大きな特徴と言える。

プロセスノードがTSMCのN5(5nm)へとArcに比べても微細化されており、より高い周波数で動作する
XVE(Xe Vector Engine)の構造、Arcと共通の仕様
ハードウェアのレイトレーシングエンジンを8基内蔵している

 また、Xe-LPになかったもう1つの特徴としては、ハードウェアのレイトレーシングエンジンに対応していることが挙げられる。これにより、アプリケーションがDirectXのレイトレーシングなどに対応していれば、レイトレーシングをハードウェアで処理できる。レイトレーシングのエンジンは、スライス単位で4つ、つまりXeコアあたりに1つ用意されており、レンダリングパイプラインの後半でレイトレーシングの処理を行なえる。

 こうした強化の結果、Xe-LPGはXe-LPに比べて性能は倍になるとIntelは主張しており、ゲームなどで性能が向上する見通しだという。なお、今回はあくまで概要の発表ということで、具体的なベンチマーク結果などは公開されていない。

行列演算器のXMXは非搭載だが、GPUを利用したAI推論でアップスケーリング機能XeSSに対応

XMXは搭載していないがXeSSに対応

 Xe-LPGと単体GPUのArcに採用されているAlchemistの違いは、大きく言えば、演算器の数だ。単体GPUであるAlchemistは、スライスを8つ持っており、単純に言えば演算器がXe-LPGの4倍になっている。それ以外の内部構造ではたった1つを除いて共通になっている。スライスあたり4つのXeコア、1つのXeコアあたり16のXVEなどの仕様は同等で、スライス1つに4つのレイトレーシングエンジンが搭載されていることなども同様だ。

XeSSではレンダリングの負荷を減らし、アップスケーリングにより高解像度ディスプレイの性能を最大限発揮できる

 ではその1つの違いは何か言えば、Alchemistでは内蔵演算器はXVEだけでなく、XMXという行列演算エンジンが内包されているが、XMXはXe-LPGには搭載されていないことが大きな違いになる。XMXはFP16やBF16、INT8/4などのさまざまな精度で行列演算ができる行列演算器で、主にAI推論のアクセラレータとして活用できる。

 Arc AシリーズではこのXMXを利用してAI推論や、XeSSと呼ばれるAIを利用したアップスケール機能を提供している。アップスケール機能とは、レンダリング段階では1080pなど一般的な解像度で演算し、それをポストプロセッシングの段階で解像度を4Kなどにアップスケールすることで、レンダリングパイプラインの負荷を下げて、より高いフレームレートなどで描画しながら、高解像度のゲームプレイを可能にする機能だ。NVIDIAのDLSSやAMDのFidelityFX Super ResolutionなどのIntel版と考えればわかりやすいだろう。

 しかしXe-LPGはXMXを持っていないため、XeSSに対応していないかというと、実はそうではなく、Xe-LPGはXeSSに対応している。なぜかと言うと、XeSSの演算そのものはXMXが必須というわけではなく、GPUの演算器を利用しても演算できるからだ。IntelのGPUはDP4Aの命令セットに対応しており、こちらを利用してもXeSSに向けたAI処理が可能になるのだ(もちろん性能はXMXを利用した方が高くなるのは言うまでもないが……)。

SoCタイルに搭載されているメディアエンジン
対応するコーデック

 なお、Xe-LPGにはメディアエンジンとディスプレイエンジンは搭載されておらず、SoCタイル側に搭載されている。これは別記事で説明したように、アイドル時などにできるだけコンピュートタイル(CPU)やグラフィックスタイル(GPU)を起こさずに動作させることで低消費電力での動作を実現するための措置だ。

 メディアエンジンは、AV1のデコードに対応しているほか、エンコードはAVC/VP9/HEVCに対応しており、2パイプで並列処理が可能になっている。

SoCタイルに内蔵されているディスプレイエンジン

 また、ディスプレイエンジンは最大で8K/60pまで対応できるほか、4K/60pを同時に4出力、あるいは1080p/360fpsないしは1440p/360fpsにまで対応している。ディスプレイの規格としてはHDMI 2.1ないしはDisplayPort 2.1 20Gに対応するなど、モダンな規格に対応している。