ニュース

NVIDIA A100の倍以上の性能となるIntelのモンスターGPU「Ponte Vecchio」。FP32で45TFLOPSを実現

Ponte Vecchio(出典:Intel Architecture Day 2021)

 Intelは、XeアーキテクチャのHPC向けとなるXe-HPCアーキテクチャを採用した「Ponte Vecchio」(ポンテベッキオ)を、HPC向けに投入する計画を昨年(2020年)明らかにしている。Intelがオンラインで開催した「Intel Architecture Day 2021」において、そのPonte Vecchioの詳細が明らかになった。

最大47のタイルを利用して2D方向にも、3D方向にもダイスタッキングを行なうPonte Vecchio

Xe-HPGのXe-core(出典:Intel Architecture Day 2021)

 Ponte Vecchioは、Xe-HPCというHPC(High Performance Computing)向けのGPUアーキテクチャに基づいた製品になっている。今回のIntel Architecture Day 2021で紹介されたゲーミング向けのXe-HPGでは、16個のベクターエンジン(256bit/エンジン)、16個のマトリックスエンジン(1,024bit/エンジン)から構成されるXe-coreが最小単位となっていた。

 これに対してXe-HPCでは8個のベクターエンジン(512bit/エンジン)と、8個のマトリックスエンジン(4,096bit/s)、512B/クロックのロードストア、512KBのL1キャッシュという構成がXe-coreとなっている。

 Xe-HPGではゲーミング性能にフォーカスが当たっているのに対して、Xe-HPCではディープラーニングの学習・推論といったHPCのアプリケーションがターゲットになっているためだ。

Ponte Vecchioのスライス(出典:Intel Architecture Day 2021)
Ponte Vecchioのスタック(出典:Intel Architecture Day 2021)
Ponte Vecchioの2スタック(出典:Intel Architecture Day 2021)

 このXe-coreが16基でスライスを構成しており、スライスには16個のレイトリーシングユニットと1個のハードウェアコンテクストスイッチングが用意されている。このスライスが4個で1スタックとなっている。

Xe-Link(出典:Intel Architecture Day 2021)

 また、Xe-LinkというGPUとGPUを接続してスケールアップする機能が用意されている。Xe-Linkだけで最大で8個のGPUまでを接続して、スケールアップしてGPUを利用可能だ。

Ponte Vecchioの構造(出典:Intel Architecture Day 2021)
コンピュートタイル(出典:Intel Architecture Day 2021)
ベースタイル(出典:Intel Architecture Day 2021)

 これらのXe-HPCは1個のモノリシックダイで実現されるのではなく、コンピュートタイルというダイに分割されて製造され、それがパッケージ上でEMIBと呼ばれる2.5Dのダイスタッキング技術によって、複数のタイルが1個のGPUとして動作する仕組みになっている。

 同時にPonte Vecchioでは、3DダイスタッキングとなるFoverosを利用して、3D方向にもタイルが実装される。Intelがベースタイルと呼んでいるI/O関連のタイルはL2キャッシュやPCI Express Gen 5などのI/Oコントローラなどが統合されている。EMIB、Foverosを利用したタイルは最大で47にも達するということだ。

 コンピュートタイルはTSMCのN5ノード(5nmプロセスルール)で製造され、ベースタイルはIntel 7ノード(従来は10nm Enhanced SuperFinで知られていたノード)で製造される。このようにファウンドリで製造されたタイルと、Intel自社工場で製造されたタイルがパッケージ内で混載されているのがPonte Vecchioの特色と言える。

Ponte Vecchioの性能(出典:Intel Architecture Day 2021)

 Intelによれば、既にA0シリコンは動き始めており、FP32のスループットは45TFLOPSを越えると明らかにされている。NVIDIAのA100のFP32スループットが19.5TFLOPSであるので、A100の2倍以上の性能を持っているということになる。

ソフトウェア環境はoneAPIにより実現、バージョン1.1は年内に正式版に

oneAPIを利用すると、CPU、GPUをヘテロジニアスに利用するアプリを簡単に作成できる(出典:Intel Architecture Day 2021)

 このPonte Vecchioを利用したAIの学習や推論を行なうプログラムは、Intelが提供しているoneAPIを利用して開発可能。既にx86 CPUを利用したAI学習や推論のプログラムコードがあれば、oneAPIを使って容易にGPU対応のプログラムにできる。

GPUとしてはIntelだけでなくAMDやNVIDIAのGPUなども利用可能に(出典:Intel Architecture Day 2021)

 サポートしているのはIntelのGPUだけでなく、NVIDIAやAMDのGPU、さらにはArm CPUなどもターゲット。加えて、oneAPI Rendering Toolkitなどを利用すると、Xe-HPCによるリモートレンダリングの実装も容易になるという。

 こうしたドメインスペシフィックなツールキットを今後も追加していくことで、Xe-HPCを様々な用途のアクセラレータとして容易に利用されるようにしたい、というのがIntelの狙いだ。oneAPI 1.1は現在暫定バージョンが提供されているが、正式版は今年(2021年)の終わりまでにリリースされる予定となっている。