ニュース

Intel、ノートPC向け単体GPU「Arc Aシリーズ」を正式発表。ローエンドからハイエンドまで4月から順次投入

笠原一輝

2022年3月31日 00:00

Intelが発表したIntel Arc Aシリーズの特徴を説明するスライド

　Intelは3月30日(現地時間)にオンラインで記者会見を行ない、「Alchemist」(アルケミスト)のコードネームで開発してきたノートPC向け単体GPU「Intel Arc Aシリーズ」を正式発表した。4月から順次市場に投入していく。

　Arc Aシリーズは、2020年10月にIntelが22年ぶりに発表した単体GPU「Iris Xe MAX」に次ぐノートPC向けの第2弾製品で、内蔵の実行ユニットなどを大幅に増やしているほか、新しい行列演算用の演算器となるXMXが追加され、さらにハードウェアレイトレーシング専用のエンジンも実装した。

　グラフィックス描画時とGPUをAI推論に利用する場合にも大幅に性能が向上しているほか、メディアエンジンも強化されており、GPUとしては初めてAV1のハードウェアエンコーダの機能を搭載していることも特徴となっている。

第2世代Xeアーキテクチャ「Alchemist」、内部の演算器などが大きく強化

Intel GPUの歴史。第10世代CoreのGen 11で大きく強化され、第11/第12世代のXe-LPで大きな性能強化、そして今回のAlchemistはXeの第2世代に相当する

　今回Intelが発表した「Arc Aシリーズ」は、元々はDG2という開発コードネームで呼ばれていた製品で、昨年コードネームが「Alchemist」に変更された。Intelの単体GPUとしては、2020年の10月に発表された開発コードネーム「DG1」を持つIris Xe MAXに次ぐ第2弾の製品となる。

　Iris Xe MAXは、IntelがIntel 740以来22年ぶりに発表した単体GPU製品となり、主にノートPCと一部チャネル向けのアドオンカードとして投入された。

　そのアーキテクチャは、第11世代Coreプロセッサ(Tiger Lake)と、第12世代Coreプロセッサ(Alder Lake)に内蔵されている統合型GPUとなる「Xe-LP」と同じ世代のもの。一般的に利用されるLPDDR4xというメモリである点も含めて、第11世代Core、第12世代CoreのGPU部分だけをそっくり抜き出した製品になっていた。

Xeのゲーミング向けを意味するXe-HPGアーキテクチャを採用している

　しかし、今回発表されたArc Aシリーズは元々DG2という開発コードネームだったことからも分かるように、DG1の延長線上にある製品だが、もともと単体GPUを意識した設計になっているため、メモリコントローラはGDDR6に対応しているなど、現代のGPUに必要な要素が含まれている。

【表1】AlchemistとXe-LP/DG1との違い
アーキテクチャ開発コードネーム	Alchemist(DG2から改名)	Xe-LP(内蔵)/DG1(単体)
応用製品	Intel Arc	Iris Xe(第11世代Coreの内蔵GPU)/Iris Xe MAX
GPU全体のレンダースライス(LPはXeスライス)数	8	1
GPU全体のスライスあたりのXeコア(LPはサブライス)数	4	6
GPU全体のXeコア数	32	6
XVE(LPはEU)	512	96
XMX	512	-
ハードウェアレイトレーシングユニット	32	-
Xeメディアエンジン	2(AV1 HWエンコード対応)	2
ディスプレイエンジン	4出力(HDMI 2.0b/DP 1.4a/2.0 10G対応)	4出力(HDMI 2/DP 1.4対応)
Xeコア(LPはサブスライス)あたりのL1データキャッシュ	192KB	非公表
ラストレベルキャッシュ(AlchemistはL2/LPはL3)	16MB	16MB
メモリ	GDDR6	LPDDR4x
バス幅	512bit	128bit
製造プロセスルール	TSMC 6N	Intel 10nm SuperFin

※Intelの資料より筆者作成

　最大の強化点は演算器が大幅に増やされていることだ。

　IntelのGPUはGPUブロックの大きな方から、レンダースライス(Xe-LP/DG1時代はXeスライスと呼ばれていたが、以下レンダースライスに統一)、Xeコア(Xe-LP.DG1時代はサブスライス)、XVE(Xe Vector Unit、Xe-LP.DG1時代はExecution Unit＝EUと呼ばれていた演算器の単位)と内部的に分割されており、Xe-LP/DG1の時代にはレンダースライスが1、Xeコアが6、XVEは96、という構成がGPUの最大スペックになっていた。

　それに対してAlchemistでは、レンダースライスが8、Xeコアが32、XVEが512となっており、演算器が大幅に増やされていることが1つの特徴となっている。

最大8つのレンダースライスを備えるArc Aシリーズ

1つのレンダースライスには4つのXeコアが内蔵されている

1つXeコアには16のXVE(以前はEUと呼ばれていた演算器)、16のXMX、192KBのL1データキャッシュなどが用意されている

XVEの構造

新しい演算器やHWレイトレーシングなどを追加、メディアエンジンは初めてAV1のエンコードに対応

新しく追加されたXMX、行列演算を効率よく行なう演算器

　Arc Aシリーズでは、Xe-LP/DG1時代にはなかった新しい演算器として、FP16、BF16、INT8、INT4、INT2などのフォーマット・精度での行列演算を扱う1,024ビットのXMXが最大512、さらにはレイトレーシングの処理を行なうハードウェアレイトレーシングユニットが最大32、それぞれ追加されている。

一番左のXVEを利用してFP16/BF16を演算すると、16Ops/クロックでの処理が可能だが、XMXを利用すると、行列で演算できるため、16倍の256Ops/クロックの処理が可能になる。これにより、性能が大幅に向上する

　XMXは従来のEU、Alchemist世代ではXVEと呼ばれるベクターエンジンに追加される行列演算器で、FP16/BF16で128Ops/クロック、INT8で256Ops/クロック、INT4/INT2で512Ops/クロックの処理が可能になる。

　これはXVEで普通にINT8を処理した場合には16Ops/クロック(DP4A命令を使うと64Ops/クロック)であるのに対して、256Ops/クロックで処理可能。これにより、16倍高速にINT8を処理できるということだ。

　最近のAI推論では、FP16やBF16をINT8に精度を落として演算しても正確性にはあまり違いがないことが分かっているため、INT8の演算が多用されており、このXMXの搭載によりAI処理時の性能が大きく高まることになる。

　NVIDIAもGeForce RTXでTensorコアと呼ばれる、似たような行列演算用のエンジンを搭載しているが、XMXは機能こそ若干違うものの、目的は同じような演算器と考えると分かりやすいだろう。

DirectX 12 Ultimateに対応したハードウェアレイトレーシングユニットがレンダースライスあたり4つ搭載されている

　ハードウェアレイトレーシングユニットは、DirectX 12 Ultimateでサポートされているレイトレーシングの処理をハードウェアで高速に行なうもので、こちらもAMDやNVIDIAが最新のGPUに搭載しているものと同じようなエンジンと考えると分かりやすいだろう。

Xeメディアエンジンも強化されAV1のハードウェアエンコードに対応

AV1のエンコードが最大50倍高速になる

　また、ビデオエンコーダ/デコーダとなるXeメディアエンジンも強化されている。メディアエンジンはXe-LP/DG1世代と同じく2エンジン構成になっており、今回新たにAV1のハードウェアエンコーダ機能が追加されている(Xe-LP/DG1世代ではAV1はデコードのみが可能になっていた)。

　また、ディスプレイエンジンも4パイプ(最大で4つのディスプレイに出力できる)ことは同じだが、内蔵トランスミッタは強化されており、HDMI 2.0bおよびDisplayPort 1.4aとDisplay Port 2.0 10Gに新たに対応している。

ディスプレイエンジン

　メモリも大きな強化点で、Xe-LP/DG1では128bit幅のLPDDR4xに対応していたが、Arc Aシリーズではクライアント向けGPUで一般的に利用されているGDDR6をサポートし、最大で512bit幅でメモリにアクセス可能になっている。

　このほかにも、XeコアあたりのL1データキャッシュは192KBに増加され、GPU全体でL2キャッシュに関しては最大16MBという仕様になっている。

ACM-G10とACM-G11という2つのダイバリエーション、XeSSやArc Controlなどのソフトウェアも強化

2つのダイ

　今回、IntelはArc Aシリーズに向けて2つのダイを設計している。サイズが大きな方のダイがACM-G10、小さな方のダイがACM-G11となる。

　ACM-G10はレンダースライスが8、Xeコアが32、XVE/XMXが512、ハードウェアレイトレーシングユニットが32というのが最大構成。

　ACM-G11はレンダースライスが2、Xeコアが8、XVE/XMXが128、ハードウェアレイトレーシングユニットが8というのが最大構成になっている。

　それぞれ最大構成から、いくつかのレンダーユニットなどを無効にすることで、バリエーション展開している。

【表2】Alchemist の2つのダイバリエーション
	ACM-G10	ACM-G11
アーキテクチャの開発コードネーム	Alchemist(DG2)	Alchemist(DG2)
レンダースライス	8	2
Xeコア	32	8
ダイ全体のXVE/XMX数	512	128
XeコアあたりのL1データキャッシュ	192KB	192KB
ハードウェアレイトレーシングユニット	32	8
L2キャッシュ	16MB	4MB
メモリ	GDDR6(256bit)	GDDR6(96bit)
PCI Express Gen 4	16レーン	8レーン
Xeメディアエンジン	2	2
Xeディスプレイパイプ	4	4
トランジスタ数	217億	72億
製造プロセスルール	6N(TSMC)	6N(TSMC)
ダイサイズ	406平方mm	157平方mm

※Intelの資料より筆者作成

　いずれのダイもTSMCの6nm(6N)ノードで生産され、前者はダイサイズ/トランジスタ数が406平方mm/217億、後者は157平方mm/72億となっており、大きな方のダイとなるACM-G10は、競合GPUメーカーが製造するクライアント向けGPUのダイサイズと同じように巨大なダイとなっている。

Arc Control

　ソフトウェア面でも強化が図られており、従来は「インテル・グラフィックス・コマンド・センター」として提供されてきたGPUの設定アプリは「Intel Arc Control」という名称に変更され、Intel Arcのドライバアップデートやゲームセッティング、解像度などの設定が行なえるようになる。ドライバアップデートは、全自動で行なったり、スケジューリングしたりと、ユーザーが自分の都合に合わせて設定できる。

　Intelは、第10世代Coreプロセッサに内蔵されていたGen 11 GPU以降、GPUドライバのアップデートを、単体GPUのメーカーと同じような頻度でアップデートするようにしており(1カ月に1回ないしは、大きなゲームタイトルがリリースされた時など)、Arc Aシリーズでも同様だ。

　なお、第11世代Core、第12世代Coreに内蔵されているXe-LPの内蔵GPUもIntel Arc Controlを利用できるようになる予定だ。

XeSS

XeSSに対応する予定のタイトル

　また、Arc Aシリーズでは、XeSS(Xe Super Sampling)という機能がサポートされる。これは簡単に言ってしまえば、1080p(フルHD、1,920×1,080ドット)などの解像度でレンダリングした後、アップスケーリングを1フレームごとに行なうことで、4K(UHD、3,840×2,160)の解像度でゲームをプレイできるという機能だ。

　Arc Aシリーズに内蔵されている、XMXのAIによるサンプリング機能を利用することで、レンダリングエンジンには負荷をかけずにアップスケーリングできるため、GPUのレンダリングを行なう負荷はフルHD程度だが、ゲームプレイは4Kの品質でプレイできる。

　なお、利用するにはゲーム側の対応が必要になり、すでに仕様などが公開されているため、Intelは今後対応タイトルが増えていく予定だと説明している。

AdaptiveSyncに対応

SmoothSync

　さらに、VESAのAdaptive Syncをサポートしているほか、最新のフレームをできるだけ高速に表示するSpeedSync、2つのフレームをマージしてテアリングを軽減するSmoothSync機能などの独自のテアリング防止機能も用意されている。

Intel Deep Link

　Xe-LPやDG1でサポートされていたIntel Deep Linkにも対応している。これは、Intelの第11世代Coreおよび第12世代Coreに内蔵されている内蔵GPUのIris Xeと、Arc Aシリーズが連携して動作するモードだ。

　これには、SoCと単体GPUの熱設計の枠を相互に融通し合う機能(Dynamic Power Share)、それぞれに内蔵しているメディアエンコーダの両方を利用してさらに高速でエンコードする機能(Hyper Encode)、またAIの推論を内蔵GPUと外付けGPUに分配して処理することで性能を引き上げる機能(Hyper Compute)などが用意されている(グラフィックスのレンダリングには単体GPUが利用される)。

Arc 7、Arc 5、Arc 3という大きく3つのブランドがありSKUは5つ、まずは下位モデルが4月から提供開始

Arc 7、Arc 5、Arc 3の3つのブランドが用意される

　こうしたArc Aシリーズには、5つのSKUが用意されており、Intelによればスペックは以下のようになっている。

【表3】Arc AシリーズのSKU
ブランド	Arc 3		Arc 5	Arc 7
型番	A350M	A370M	A550M	A730M	A770M
Xeコア	6	8	16	24	32
ハードウェアレイトレーシングユニット	6	8	16	24	32
グラフィックス周波数	1,150MHz	1,550MHz	900MHz	1,100MHz	1,650MHz
メモリ容量	4GB	4GB	8GB	12GB	16GB
メモリバス幅	64bit	64bit	128bit	192bit	256bit
グラフィックスパワー	25～35W	35～50W	60～80W	80～120W	120～150W
提供時期	4月		今夏

※Intelの資料より筆者作成

　具体的にはArc 7、Arc 5、Arc 3という3つのグレードが用意されており、Arc 7には2つのSKU(A770MとA730M)、Arc 3にも2つのSKU(A370MとA350M)が用意されている。

　Xeコアの数やメモリのバス幅などから考えて、Arc 7とArc 5は大きい方のダイであるACM-G10ベースで、Arc 3は小さい方のダイであるACM-G11ベースと考えることができる。

SKU構成

グラフィックス周波数

　なお、グラフィックス周波数というのは、レンジが広く取られているTDPのうち低い方のTDP時の動作周波数となる。ちなみにTDPとは熱設計消費電力のことで、熱設計時にこれだけの電力が流れている時に発生する熱を放熱できるようにと参照する指標であり、消費電力ではない。

　A770Mであれば、TDPは120～150Wがレンジになっており、グラフィックス周波数の1,650MHzはTDP 120W時の動作周波数になる。

　従って、OEMメーカーがより高い方のTDPに設定して、より高いクロック周波数で動かすことは可能。その選択はOEMメーカー側に委ねられている。

　また、実際にはCPUと同じようにターボブースト機能が働くので、一時的により高いクロックおよび消費電力で動かすことも可能だが、その場合にはノートPCの熱設計(具体的には放熱機構)を強化する必要がある。

第12世代Core(Core i7-1280P)に内蔵のIris XeとIntel A370Mのフレームレート比較

コンテンツクリエーションでの性能

　Intelが公表したベンチマークデータによれば、第12世代Core(Core i7-1280P)に内蔵されているIris Xeが30～60fps程度でプレイできるAAAタイトルを1080pで動作させると、Arc A370Mは60fpsを大きく超えてプレイできるという(ゲームの設定はMediumかHigh)。

　また、Fornite(Medium)、GTA V(Medium)、Rocket League(High)、Valorant(High)の4つは90fpsを超えると説明している。

　まず4月にArc 3が提供開始され、OEMメーカーのノートPCに採用される計画。そして今夏にArc 7とArc 5が提供開始される予定。すでに説明した通り、Arc 3はACM-G11ベースで、Arc 7/5はACM-G10ベースと推測されるので、2つのチップが提供開始になる時期の違いと考えることができるだろう。

最初の製品はGalaxy Book2 Pro

OEMメーカー

　Arc Aシリーズを搭載したノートPCは、Samsungが2月に発表した「Galaxy Book2 Pro」が、Arc 3搭載版として市場に登場する。その後、Acer、ASUS、Dell、HP、Lenovo、MSIなどの大手PCメーカー、Intel自身のブランドであるIntel NUC、さらには日本のNEC PCなどからも提供される予定という。一番廉価なノートPCは899ドルからとなるようだ。