イベントレポート
完全刷新されたIntelの新GPU「Xe2」と第4世代NPUの詳細
2024年6月4日 12:00
IntelはCOMPUTEX TAIPEI 2024の開幕初日に、第3四半期に正式発表を計画している次世代薄型ノートPC向けSoC「Lunar Lake」の技術的な詳細を公開した。
Lunar Lakeは、Pコアの「Lion Lake」、Eコアの「Skymont」、GPUの「Xe2」、NPUの「第4世代NPU」と、CPU、GPU、NPUとすべてのプロセッサが新しくなり、それぞれ性能が強化されているのに、SoC全体では40%も消費電力が下がっていることが大きな特徴となる。本記事では、そうした新しいプロセッサのうち、GPUとNPUの強化点に関して紹介していきたい。
今後数年のIntelのGPUに採用される新アーキテクチャ「Xe2」
Lunar LakeのGPU最大の特徴はIntelが「Xe2」と呼んでいる新しいGPUアーキテクチャを採用していることだ。
開発コードネーム | Tiger Lake | Alder Lake | Raptor Lake | Meteor Lake | Lunar Lake |
---|---|---|---|---|---|
ブランド名 | 第11世代Core | 第12世代Core | 第13世代Core | Core Ultra | ? |
アーキテクチャ | Xe | Xe | Xe | Xe | Xe2 |
コアデザイン | Xe-LP | Xe-LP | Xe-LP | Xe-LPG | ? |
レイトレーシング | - | - | - | ○ | ○ |
XMX | - | - | - | - | ○ |
Intelは2020年に投入した、第11世代Core(Tiger Lake)において、内蔵GPUから外付けGPUまで展開できる新しいアーキテクチャとしてXeを発表し、その第1弾として「Xe-LP」という最大96EUの内蔵GPUを搭載した。
その後、「Xe-HPG」が単体GPUの「Intel Arc」として発売され、「Xe-HP」が「Xe-Ponte Vecchio(製品名としてはIntel Data Center GPU Max)」のようなデータセンターAI向けのGPUなどに利用されている。
Xe-LPは、第12世代Core(Alder Lake)、第13世代Core(Raptor Lake)などに継続して内蔵GPUとして採用された。
昨年(2023年)発表されたCore Ultra(Meteor Lake)には、「Xe-LPG」という、単体GPUのArcにも採用されたGPUデザインが採用されている。Arcで対応したリアルタイム・ハードウェア・レイトレーシングに対応するなどして機能が強化された。ただし、単体のArcにあった、AIのための行列演算器となるXMX(Xe Matrix eXtentions)エンジンは非搭載だった。
今回IntelがLunar Lakeに搭載したのは、そうした初代Xeの延長線上ではなく、新世代のものとなる。Xe2アーキテクチャは、初代Xeと同じようにスケーラブルなデザインになっており、Lunar Lakeに搭載される内蔵GPUから、ゲーミング向けの単体GPUまでカバーできる。ただ、今回Lunar Lakeに内蔵されたGPUのコードネームは明らかにされていない。
SIMD8からSIMD16に進化しXVEの演算効率が強化。さらにXMXに対応で68TOPSを実現
Xe2アーキテクチャの最大の特徴は、Xe2の演算ブロックの単位となる「Xe-Core」に内蔵されている浮動小数点演算エンジン(XVE)が、SIMD8(16x256bit浮動小数点演算エンジン)からSIMD16(8x512bit浮動小数点演算エンジン)に変更されていることだ。これにより、XeコアあたりのXVEは半分になるが、1基のXVEが処理できる浮動小数点データは倍になり、より多くのデータ形式を1クロック周波数で扱えるようになる。
Core UltraのUシリーズに搭載されていたXe-LPGは、スペック上64基のXVEを搭載している。Lunar Lakeでは64基のXVEという点は同じだが、SIMD8からSIMD16に変更されているため、XVEの性能は単純に同クロックであれば倍になっている。このため、Core Ultra Uシリーズの内蔵GPU(Xe-LPG、Intel Graphics)から大きく性能が向上していることが期待できるのだ。
Core Ultraに搭載されたXe-LPGでは未搭載だったXMXが搭載されたことも大きな特徴で、FP16/BF16、INT8/INT4/INT2など、さまざまな精度のデータタイプの行列演算を一度に処理することが可能になる。FP16では2,048命令を1クロック周波数で、INT8では4,096命令を1クロックで処理できる。これにより、68TOPSというAI性能(INT8)を実現しており、AIアプリケーションなどでの処理を高速に行なえる。
Xe2アーキテクチャでの拡張はそうした演算エンジンだけにとどまらない。CPUで言うところのフロントエンド、バックエンドに相当するようなスケジューラ(Command)、ジオメトリエンジンは命令フェッチのスループットが3倍になったほか、L1キャッシュやL2キャッシュなどのバックエンドの性能も強化され、L2キャッシュは8MBに強化されている。また、ハードウェアリアルタイムレイトレーシング(Intel RTU)も引き続き搭載されている。
Lunar LakeのXe2は、Core UltraのUシリーズのGPUはもちろんのこと、Hシリーズに搭載されていたArcに比較しても、同じ電力であれば性能が向上し、同じ性能であれば電力を下げられる。
GPU全体での性能は従来製品(つまりCore UltraのUシリーズ)に比較して1.5倍になっており、先日販売が開始されたばかりのF1 24を、内蔵GPUだけで動かすデモを行なうなど、AAAタイトルも十分にプレイできるとIntelはアピールした。
ディスプレイエンジンは新しくeDP 1.5に対応。話題のH.266/VVCデコードも
Lunar Lakeでは、ディスプレイエンジンも強化されている。これまでCore Ultraの時はSoCタイルの中に配置されていたが、Lunar LakeではSoCタイルはコンピュートタイルに統合されているため、コンピュートタイル上に置かれている。3パイプ(3つの画面に出力が可能)で最大8k60pのHDRないしは3×4K60pといった仕様は同じで、HDMI 2.1、DisplayPort 2.1に対応というあたりは同等だ。
大きな違いは、eDP 1.5に新しく対応したことで、Low Power LCDのような低消費電力なディスプレイと組み合わせると、必要に応じてディスプレイへのデータ転送を停止するパネルセルフリフレッシュ、必要な部分だけを転送する機能、適応型同期を実現するパネルリプレイなどに対応し、その間SoCが動作を停止することで消費電力を削減する仕組みになっている。
メディアエンジンは基本的にCore Ultraと同等だが、アップデートとしてH.266/VVC(Versatile Video Coding)という新コーデックに対応した。これは、ストリーミングビデオのデータ量を減らすために開発されたコーデックで、AV1と比較して10%程度ファイルサイズを減らせるものだ。
また、帯域幅に応じて解像度を動的に変更するという仕組みが入っており、YouTubeのようなストリーミング型ビデオ配信などで採用すると、動画再生時のユーザー体験が向上するという。つまり、動画配信サイトなどがH.266/VVCに対応すると、Lunar LakeではCPUやGPUに負荷を最小限にして再生できる。
NPUは第4世代へと進化し、演算器が3倍、DSPが6倍に増えて48TOPSという性能を実現
NPUはIntelが「第4世代NPU(NPU4)」と呼ぶ新NPUへと進化した。
Core Ultraに内蔵されたNPU(Intel AI Boost)が、初めてIntelのSoCに内蔵されたNPUであるのにもかかわらず「第3世代NPU」で、今回Lunar Lakeに搭載されたNPUが第4世代NPUというのもやや奇異な感じがするかもしれない。
そもそもIntelのNPUは、Intelが2017年に買収したMovidiusの技術がベースになっており、Movidius買収後になる2018年にIntelがリリースした初期のNPU(当時はVPUと呼ばれていた「Madrid」のこと)が初代で、その後それがPC用の単体チップになった「Keem Bay(MicrosoftのSurface Studio Laptop 2に搭載されている単体NPU)」が第2世代、そしてCore Ultraに搭載されたのが第3世代という数え方になる。そのため、Lunar LakeのNPUが第4世代だ。
そのNPU4の特徴は、エンジンの数がシンプルに増やされていること。NPU3では「Neural Compute Engine」と呼ばれる行列演算ユニット(MAC)、ロード/ストア、データ変換などの演算器から構成されているNeural Compute Engineは2ユニット搭載されていた。それに対してNPU4では3倍の6ユニットに増やされている。1つのNeural Compute Engineに内蔵されているMACの数は同じなので、単純に演算器は3倍に増えている(NPU3ではMACは4,000基だったが、NPU4では12,000基に)。
これに伴い、IntelがSHAVE DSPと呼んでいる浮動小数点演算ユニットも大幅に増やれた。SHAVE DSPの数自体は従来のNPU3と同じNeural Compute Engine 1つあたりに2基だが、NPU4ではNCEが3倍になっているので、トータルでは12基になっている。これにより浮動小数点演算性能は4倍になっている。
MACとDSPがそれぞれ増えていることで、従来のNPU3では11TOPS(これまでIntelは11TOPSと説明してきたが、今回正確には11.5TOPSであることが公開された。ただ従来通り11TOPSと表現しておく)から4倍以上となる48TOPSを実現したことになる。
これは昨日発表されたAMDのRyzen AI 300に搭載されている「XDNA 2」の50TOPSに次いで業界第2位の性能ということになる。
ただ、Intelの強みはこうしたNPUだけでなく、GPUにXMXを搭載したことにより、CPU、GPU、NPUを合わせたときの合計のTOPS数が120TOPSと、Snapdragon X Eliteの75TOPSを大幅に上回っていることだ。
AMDは、現時点ではRyzen AI 300のCPUとGPUのTOPS数に関して「現時点では公開できない」(AMD執行役員兼ライアントチャンネルビジネス事業部 事業部長デビッド・マカフィー氏)という姿勢であるため、SoC全体の性能での比較は保留となるが、少なくともSnapdragon X Eliteとの比較という意味ではNPU単体でも、SoC全体でも上回っていると言うことができるだろう。