ニュース
NVIDIA A100の倍以上の性能となるIntelのモンスターGPU「Ponte Vecchio」。FP32で45TFLOPSを実現
2021年8月19日 22:00
Intelは、XeアーキテクチャのHPC向けとなるXe-HPCアーキテクチャを採用した「Ponte Vecchio」(ポンテベッキオ)を、HPC向けに投入する計画を昨年(2020年)明らかにしている。Intelがオンラインで開催した「Intel Architecture Day 2021」において、そのPonte Vecchioの詳細が明らかになった。
最大47のタイルを利用して2D方向にも、3D方向にもダイスタッキングを行なうPonte Vecchio
Ponte Vecchioは、Xe-HPCというHPC(High Performance Computing)向けのGPUアーキテクチャに基づいた製品になっている。今回のIntel Architecture Day 2021で紹介されたゲーミング向けのXe-HPGでは、16個のベクターエンジン(256bit/エンジン)、16個のマトリックスエンジン(1,024bit/エンジン)から構成されるXe-coreが最小単位となっていた。
これに対してXe-HPCでは8個のベクターエンジン(512bit/エンジン)と、8個のマトリックスエンジン(4,096bit/s)、512B/クロックのロードストア、512KBのL1キャッシュという構成がXe-coreとなっている。
Xe-HPGではゲーミング性能にフォーカスが当たっているのに対して、Xe-HPCではディープラーニングの学習・推論といったHPCのアプリケーションがターゲットになっているためだ。
このXe-coreが16基でスライスを構成しており、スライスには16個のレイトリーシングユニットと1個のハードウェアコンテクストスイッチングが用意されている。このスライスが4個で1スタックとなっている。
また、Xe-LinkというGPUとGPUを接続してスケールアップする機能が用意されている。Xe-Linkだけで最大で8個のGPUまでを接続して、スケールアップしてGPUを利用可能だ。
これらのXe-HPCは1個のモノリシックダイで実現されるのではなく、コンピュートタイルというダイに分割されて製造され、それがパッケージ上でEMIBと呼ばれる2.5Dのダイスタッキング技術によって、複数のタイルが1個のGPUとして動作する仕組みになっている。
同時にPonte Vecchioでは、3DダイスタッキングとなるFoverosを利用して、3D方向にもタイルが実装される。Intelがベースタイルと呼んでいるI/O関連のタイルはL2キャッシュやPCI Express Gen 5などのI/Oコントローラなどが統合されている。EMIB、Foverosを利用したタイルは最大で47にも達するということだ。
コンピュートタイルはTSMCのN5ノード(5nmプロセスルール)で製造され、ベースタイルはIntel 7ノード(従来は10nm Enhanced SuperFinで知られていたノード)で製造される。このようにファウンドリで製造されたタイルと、Intel自社工場で製造されたタイルがパッケージ内で混載されているのがPonte Vecchioの特色と言える。
Intelによれば、既にA0シリコンは動き始めており、FP32のスループットは45TFLOPSを越えると明らかにされている。NVIDIAのA100のFP32スループットが19.5TFLOPSであるので、A100の2倍以上の性能を持っているということになる。
ソフトウェア環境はoneAPIにより実現、バージョン1.1は年内に正式版に
このPonte Vecchioを利用したAIの学習や推論を行なうプログラムは、Intelが提供しているoneAPIを利用して開発可能。既にx86 CPUを利用したAI学習や推論のプログラムコードがあれば、oneAPIを使って容易にGPU対応のプログラムにできる。
サポートしているのはIntelのGPUだけでなく、NVIDIAやAMDのGPU、さらにはArm CPUなどもターゲット。加えて、oneAPI Rendering Toolkitなどを利用すると、Xe-HPCによるリモートレンダリングの実装も容易になるという。
こうしたドメインスペシフィックなツールキットを今後も追加していくことで、Xe-HPCを様々な用途のアクセラレータとして容易に利用されるようにしたい、というのがIntelの狙いだ。oneAPI 1.1は現在暫定バージョンが提供されているが、正式版は今年(2021年)の終わりまでにリリースされる予定となっている。