ニュース

Panther Lakeの「Xe3 GPU」と「第5世代NPU」はどのぐらい性能が向上したのか

Panther LakeのGPUとNPU(出典: GPU & NPU Accelerators、Intel)

 Intelは次世代Core UltraとなるPanther Lakeの技術的な詳細に関しての発表を行なった。その中でIntelは、Panther Lakeに採用されているGPU「Xe3」、NPUの「第5世代NPU」、ISPとなる「IPU7.5」の技術的な概要や詳細を明らかにした。

 注目のGPUはIntelの内蔵/単体GPUアーキテクチャ「Xe」の第3世代となる「Xe3」へと進化し、製品のブランド名は「Intel Arc Bシリーズ」になることが明らかにされた。また、第5世代NPUは内部構造が改良され、Core Ultra 200V(Lunar Lake)に内蔵されていた第4世代NPUとほぼ同じ50TOPSの性能を実現しながら、性能あたりのダイ面積が40%小さくなるなど効率が大きく改善されている。

2020年のXe導入以降着実に進化してきたIntel GPU、内蔵GPUだけでなく外付けGPUにも発展

GPU IPロードマップ、Panther LakeのXe3はIntel Arc Bシリーズブランドになる予定で、Xe3の発展形「Xe3P」は次世代のdGPUとして登場する計画(出典: GPU & NPU Accelerators、Intel)

 今回のPanther Lakeに搭載されているGPUは、Intelが「Xe3」と呼んでいる第3世代のXeアーキテクチャのGPUが採用されている。Intelは、2020年に発表した第11世代Core(Tiger Lake)世代で、新しいGPUアーキテクチャとしてXeを導入した。

 従来のIntel GPUは内蔵GPUだけに特化しており、より大規模なGPUへの展開には適していなかった。そこで、Xeでは、内蔵GPUから単体GPUまでスケーラブルなアーキテクチャとして設計され、最初のXeとなったXe-LPはTiger Lakeの内蔵GPUに、そしてDG1と呼ばれる単体型はIris Xe Maxとして単体GPUとして投入された。

【表1】IntelのXe GPUの進化の歴史(Intelの資料などより筆者作成)
Xe-LP/DG1Alchemist(Xe-HPG)Xe-LPG(XMXなし)Xe-LPGXe2BattlemageXe3(12Xeコア版)Xe3(4Xeコア版)
採用されたSoC/dGPUTiger Lake/Alder Lake/Raptor LakeArc/Arc Pro Aシリーズ(dGPU)Meteor Lake/Arrow Lake(H以外)Arrow Lake-HLunar LakeArc/Arc Pro Bシリーズ(dGPU)Panther LakePanther Lake
導入年2020年2022年2023年2025年2024年2024年2025年2025年
アーキテクチャ世代XeXe(xxG版)Xe(xxG版)Xe(xxG版)Xe2Xe2Xe3Xe3
Xeコア/レンダースライス6コア4コア4コア4コア4コア4コア6コア2コア
レンダースライス/GPU全体18222522
Xeコア/GPU全体6コア328コア8コア8コア20コア12コア4コア
HWレイトレーシング/レンダースライス-4基4基4基4基4基6基2基
HWレイトレーシング/GPU全体-32基8基8基8基20基12基4基
ベクターエンジン(XeはEU)/Xeコア161616168888
ベクターエンジン(XeはEU)/GPU全体96512128128641609632
ベクターエンジンbit長256bit256bit256bit256bit512bit512bit512bit512bit
ベクターエンジンALUネイティブSIMD型SIMD8SIMD8SIMD8SIMD8SIMD16SIMD16SIMD16SIMD16
FP ALU・INT ALU/ベクターエンジン888816161616
FP ALU・INT ALU/GPU全体7684,0961,0241,0241,0242,5601,536512
XMX/Xeコア-16-168888
XMX/GPU全体-512-128641609632
ピークAI推論性能(INT8)非公開275TOPS非公開77TOPS67TOPS197TOPS120TOPS非公開
シェアードL1/Xeコア128KB192KB192KB192KB192KB256KB256KB256KB
L2キャッシュ(最大)3.8MB16MB8MB8MB8MB18MB16MB4MB

 そのXe世代の改良版として投入されたのがAlchemist(ないしはXe-HPG)の開発コードネームで知られたGPUで、2022年に「Intel Arc Aシリーズ」として単体GPUとして投入された。そのAlchemistの内蔵GPU版として用意されたのがXe-LPGで、2023年に登場した初代Core Ultra(Meteor Lake)に、AI処理用のXMXなし版のXe-LPGが内蔵された。そして今年の1月に登場したCore Ultraシリーズ2のCore Ultra 200H(Arrow Lake-H)では、XMX機能を搭載したXe-LPGが採用されている。

Xe2からXe3に(出典: GPU & NPU Accelerators、Intel)
Xe2のレンダースライスブロック図(出典: GPU & NPU Accelerators、Intel)

 Xeの第2世代として投入されたのがXe2で、昨年(2024年)の9月に発表されたCore Ultra 200V(Lunar Lake)において、内蔵GPUとして採用されている。その後、昨年末にそのXe2のアーキテクチャを採用した単体GPU版として開発コードネームBattlemageが「Arc Bシリーズ」として発表され現在に至っている。

 Xe2では、ベクターエンジンと呼ばれる内蔵エンジンのALUが、初代Xe世代のSIMD8からSIMD16に強化されており、初代XeではSIMD16で実行する場合には2つのXeコアを束ねて実行する必要があったが、Xe2ではSIMD16を1つのXeコアだけで処理することが可能になっており、処理効率が向上している。

Lunar Lakeに内蔵されていたXe2からエンジン数などが増やされているXe3

Xe3のレンダースライスブロック図、レンダースライスあたりのXeコアが6に増やされている(出典: GPU & NPU Accelerators、Intel)

 そのXe2の次の世代として用意されたのが今回のPanther Lakeで採用されているXe3となる。従来のXe2では、1つのレンダースライス(IntelではGPUを階層的に構築しているが、レンダースライス単位で増減したりすることが可能)に内蔵されているXeコアは最大4つになっていた。それに対して、Xe3ではそれが最大6つに増やされている。今回のXe3では最大構成として2レンダースライスの構成が用意されており、XeコアはGPU全体で最大12と、Lunar Lakeの最大8から強化されている。

【表2】Lunar LakeのXe2、Panther Lakeのスペック比較(Intel社の資料などより筆者作成)
Xe2Xe3(12Xeコア版)Xe3(4Xeコア版)
採用されたSoC/dGPULunar LakePanther LakePanther Lake
アーキテクチャ世代Xe2Xe3Xe3
Xeコア/レンダースライス4コア6コア2コア
レンダースライス/GPU全体222
Xeコア/GPU全体8コア12コア4コア
HWレイトレーシング/レンダースライス4基6基2基
HWレイトレーシング/GPU全体8基12基4基
ベクターエンジン(XeはEU)/Xeコア888
ベクターエンジン(XeはEU)/GPU全体649632
FP ALU、INT ALU/GPU全体1,0241,536512
XMX/GPU全体649632
ピークAI推論性能(INT8)67TOPS120TOPS非公開
シェアードL1/Xeコア192KB256KB256KB
L2キャッシュ(最大)8MB16MB4MB
製造プロセスノードTSMC N3BTSMC N3EIntel 3

 また、Lunar LakeのXe2世代では192KBだったXeコア1つあたりの共有L1(要するにローカルメモリのこと)は、BattlemageのXe2コアと同様量の256KBに増やされている。また、L2キャッシュもLunar LakeのXe2の8MBと比較して最大16MBと倍増した。こうしたキャッシュ階層の改良は、メモリレイテンシの改善、さらにはメモリ帯域幅への圧迫を減らすという意味で大きな効果がある。

L1キャッシュが増えた以外は内部のアーキテクチャは基本的に同じ(出典: GPU & NPU Accelerators、Intel)
レイトレーシングユニットは強化されているほか、異方形フィルタリングなどグラフィックスの固定機能が強化されている(出典: GPU & NPU Accelerators、Intel)

 ただし、内部の演算器そのものの構造は、基本的にXe2世代と同じだ。具体的にはXe2で導入された512bitのベクターエンジンが8つある形になっており、内部ではSIMD16をネイティブでサポートするFP(浮動小数点)のALUとINT8(整数)のALU、XMXエンジンが1つ内蔵されているなどの構造は共通だ。

 ただし、Xe2に比べて25%ほどより多くのスレッドが処理できるようになっていること、複数のレジスタアロケーションに対応すること、FP8への脱量子化などの改良が加えられており、実行処理の最適化が行なわれていると理解することができる。

 また、グラフィックス関連の固定機能(新しいURBマネージャ、2倍の異方形フィルタリングエンジン、2倍のステンシルテストバッファ)の強化も行なわれており、演算器の強化に合わせてグラフィックス性能が向上する。

 Xeコア数が最大で12コアになったことに伴い、XMXのユニット数も増えている。具体的にはLunar LakeのXe2の64に比べて96に増加しており、それに合わせてINT8を利用した場合のAI推論性能は120TOPSへと高速化されている。サポートされる精度はXe2と同じTF32、FP16/BF16、INT8、INT4、INT2となる。

マイクロベンチマークの結果(出典: GPU & NPU Accelerators、Intel)
Lunar Lakeと比較して性能が50%アップ(出典: GPU & NPU Accelerators、Intel)
Arrow Lake-H(Xe-LPG)と同じ性能で電力が40%減る(出典: GPU & NPU Accelerators、Intel)

 Intelは、Lunar LakeのXe2 GPUと比較して、シェーダの細かな処理能力が処理によっては最大で7.4倍になり、ゲームベンチなどによる性能が最大50%アップし、Arrow Lake-H(Xe-LPG)と同じ性能であれば電力が40%減るという性能になっていると説明している。

2種類のGPUタイル(出典: GPU & NPU Accelerators、Intel)

 なお、今回IntelはPanther Lake向けのGPUを、グラフィックスタイルという単体のダイで製造し、Foverosを利用してパッケージ上で1つのSoCに統合している。

 GPUのタイル(ダイ)は2種類用意されており、Xeコアが4基のタイルとXeコアが12基のタイルという2つが用意されている。前者はIntel 3で製造され、後者はTSMC N3Eというプロセスノードで製造されている。

第5世代NPUでは、内部構造の大幅変更により同じ性能を実現しつつ、より小さいダイ面積に

第4世代NPUから第5世代NPUへ(出典: GPU & NPU Accelerators、Intel)

 IntelのNPUは、元々は2016年にIntelが買収した「Movidius」のVPU(Visual Processing Unit)がベースになっている。MovidiusのVPUは、画像認識を低消費電力で行なうために開発したプロセッサで、Intelでは最初の世代(Myraid-X)、第2世代(Keem Bay)の2世代にわたって製品が投入された。

 VPUは内部に行列乗法を効率よく行なうSHAVE DSPと多くのMAC(浮動小数点演算器と整数演算器を内蔵した演算器)から構成されているニューラルコンピュートエンジンなどを内部に備えており、Scratchpad RAMと呼ばれるローカルメモリ上にデータを展開することで、メモリアクセスを極限まで減らすことで低消費電力を実現する仕組みになっていた。

【表3】Intelの第3世代NPU以降のスペック(Intelの資料などより筆者作成)
第3世代NPU第4世代NPU第5世代NPU
ニューラルコンピュートエンジン263
SHAVE DSP/ニューラルコンピュートエンジン222
SHAVE DSP/NPU4126
MAC/ニューラルコンピュートエンジン2,0002,0004,000
MAC/NPU4,0001万2,0001万2,000
L2キャッシュ非公表非公表256KB
Scratchpad RAM4MB9MB4.5MB
性能11/13TOPS48TOPS50TOPS

 Intelが2023年に投入した初代Core Ultra(Meteor Lake)で採用した第3世代NPU(IntelのCPUに統合されるNPUとしては初めてだが、VPUの2世代から数えるとIntel NPUとしては第3世代になるため、第3世代NPUと呼ばれた)では、2基のニューラルコンピュートエンジンから構成されており、ピーク時の性能(INT8を利用しての演算時)がMeteor Lake用では11TOPS、24年に投入されたCore Ultraシリーズ2(Arrow Lake)では13TOPSの性能を実現した。

Intelの第4世代NPU(出典: GPU & NPU Accelerators、Intel)

 2024年に投入されたCore Ultraシリーズ2(Lunar Lake)では、第4世代NPUが投入された。この第4世代NPUではニューラルコンピュートエンジンが3倍の6基に増やされており、INT8を利用してのピーク性能が48TOPSと第3世代NPUの約4倍に強化されている。これによりMicrosoftのCopilot+ PCの要件(40TOPS以上の性能を持つNPU)を満たすことになった。

第5世代NPUでは、1つのニューラルコンピュートエンジンが第4世代NPUの2つ分になっている(出典: GPU & NPU Accelerators、Intel)

 Panther LakeにはそのIntel NPUの最新世代となる第5世代NPUに強化されている。性能は50TOPSと、Lunar Lakeの48TOPSに比べて2TOPSしか増えていないように見えるが、内部のアーキテクチャに大きな手を入れることで、NPUとしての効率が向上している。

 具体的には、今回の第5世代NPUでは、ニューラルコンピュートエンジンが第4世代の6基から3基へと半減されている。その代わりに、それぞれのニューラルコンピュートエンジンに内蔵されているMAC(FP/INTの演算器)は倍増されており、NPU全体でのMAC数は1万2,000基と同等だ。つまり、MACの切り方を変えたということになる。

第5世代NPUでは同じ1万2,000基のMACだが、Shave DSPの数やScratchpad RAMが減らされている(出典: GPU & NPU Accelerators、Intel)

 それにより、行列演算を行なうSHAVE DSPの数は減っている。というのも、Intel NPUでは1つのニューラルコンピュートエンジンにつき2基のSHAVE DSPを内蔵していることになっているため、第4世代では12基だったDSPは、第5世代では6基と半減している。

 また、それに合わせてローカルメモリとなるScratchpad RAMも半分の4.5MBに減らされている。それでも性能が向上していることからも分かるように、要するに第4世代の12基のDSPや9MBのScratchpad RAMは多すぎたということだろう。そのバランスをとったデザインになったのが第5世代NPUとなる。

ダイ面積あたりの性能が40%向上している(出典: GPU & NPU Accelerators、Intel)
内部構造も改善され、FP8のサポートも追加されている(出典: GPU & NPU Accelerators、Intel)
Panther Lake全体で180TOPSを実現(出典: GPU & NPU Accelerators、Intel)

 無駄を削ぎ落としたことで、ダイ面積あたりのNPUの性能は40%向上している。つまりほぼ同じ性能を実現していながら、ダイサイズは40%小さいということを意味し、高効率なNPUになっている。

 なお、Meteor LakeやArrow Lake世代では、第3世代NPUはTSMC N6(6nm)で製造されるSoCダイに置かれていたが、今回の第5世代NPUは、CPUと同じコンピュートタイルに置かれており、Intelの最新プロセスノードになるIntel 18Aで製造される。そうしたCPU用の最新ノードで製造されることも、電力効率の改善に大きな効果を与えていると考えられるし、Panther Lakeのすべての構成でCopilot+ PCの要件を満たすことになる。

Lunar Lakeで導入されたISP「IPU7」がマイナーバージョンアップされてIPU7.5に

IPU 7.5(出典: Next-Gen IPU Architecture、Intel)

 今回IntelはLunar Lakeで導入したISP(Image Signal Processor、IntelではISPのことをIPU=Image Processing Unitと呼んでいる)となるIPU7のマイナーバージョンアップを行なっている。

 IntelのIPUはMicrosoftのSurfaceシリーズや、LenovoのThinkPadシリーズの一部モデルでISPとして利用されている。MIPI-CSI2という高速なシリアルバスでカメラ/CMOSセンサーと接続され、高画質な後処理を行なうのがISPの役割だ。

 SoCに内蔵されているISPを利用しない場合には、通常カメラ側に単体型ISPが搭載され、それによりカメラのCMOSセンサーから入力されるRAWデータの後処理(RAWデータの色補正やJPEGやmp4などの圧縮形式へのリアルタイム変換)が行なわれる。

 単体型ISPは、容量や速度が十分ではないローカルメモリや、そもそも内蔵されているDSP自体の性能が低いなどの理由で、十分な後処理が行なわれないため画像品質が低い。それに対してSoC内蔵型ISPは、高速なSoCのローカルメモリが使えるし、処理能力も単体型ISPに比べて圧倒的に高いため、高品質な動画や静止画として後処理をすることが可能になる。なお、SoC内蔵ISPのメリットに関しては以下の記事をご参照いただきたい。

IPU7のマイナーバージョンアップとして投入されるIPU7.5(出典: Next-Gen IPU Architecture、Intel)

 今回Panther Lakeに搭載されているIPU 7.5は、バージョンが浮動小数点以下のアップデートであることからも分かるように、IPU 7のマイナーバージョンアップ版となる。IPUのハードウェア(10bitの深度のIPUが3つ)の大枠は同じなのだが、HDRブレンダーエンジンが強化され、NPUやGPUなどを利用する機能が追加された小規模なアップデートとなる。

HDRのダイナミックレンジが広くなった(出典: Next-Gen IPU Architecture、Intel)
AIを利用したノイズリダクション(出典: Next-Gen IPU Architecture、Intel)

 それによりHDRのダイナミックレンジがより広くなり、NPUやGPUなどを利用したAIベースのノイズリダクションやトーンマッピングが利用可能になっており、より高画質を実現することが可能になっている。