後藤弘茂のWeekly海外ニュース

25TFLOPSのスーパーGPU「Vega」をGPUコンピュート市場に投入するAMD

Radeon InstinctイニシアチブでGPUコンピュート市場を狙う

 AMDは1枚のカードで25TFLOPS(FP16)の性能を実現できる新GPU「Radeon Instinct MI25」を、GPUコンピュート向けに投入する。次世代GPUアーキテクチャ「Vega」ベースのGPUだ。登場すれば、NVIDIAのPascalベースの「Tesla P100(GP100)」の21TFLOPS(FP16)を上回ることになる。

 AMDが、GPUコンピュートに向けた包括的な戦略とハードウェア製品系列、ソフトウェアプラットフォームを発表した。盛り上がっているマシンラーニング(AMDはMachine Intelligence(MI)と呼んでいる)にフォーカスし、GPUコンピュート向けに新たな製品ブランド「Radeon Instinct」を投入する。Radeon Instinctは、マシンラーニングアクセラレータをメインターゲットとしたGPU製品で、来年(2017年)前半に市場投入される。今後は、こうしたGPUコンピュート向けの製品もRadeonブランドのサブブランドとなる。

 Radeon Instinctには現在の「Polaris」、「Fiji」アーキテクチャGPUだけでなく、次世代の「Vega」アーキテクチャGPUもラインナップされている。新アーキテクチャVegaベースの「Radeon Instinct MI25」では、パックド(SIMD)フォーマットのFP16(16-bit浮動小数点演算)がサポートされることも公式に明らかにされた。

Radeon Instinctアクセラレータ
Radeon Instinctの概要
ディープラーニングのトレーニングフェイスと推論フェイズの両方をカバーする

 AMDはRadeon Instinctに合わせて、オープンソースのマシンラーニング向けのライブラリ「MIOpen」を来年(2017年)第1四半期に提供する。また、AMDは今年(2016年)4月に、Radeon上のGPUコンピュートのソフトウェアプラットフォーム「Radeon Open Compute Platform(ROCm)」を発表している。ROCmは、マルチプログラミング言語対応のオープンソースのGPUコンピュートプラットフォーム。HSA(Heterogeneous System Architecture)のAMD GPU向け拡張実装プラスアルファだ。Radeon Instinctに合わせてAMDは、ROCmを拡張しディープラーニングフレームワークへと最適化した。

ハードウェアとソフトウェアを縫合するイニシアチブとしての「Radeon Instinct」
マシンラーニング向けのライブラリMIOpenも投入
音楽のロックとの語呂合わせ
ROCmインフラストラクチャの思想
ROCmインフラストラクチャの概要
ROCmとHSA
ROCmのフィーチャ
ROCmのソフトウェアスタック
Lisa Su CEO

 また、AMDのLisa Su(リサ・スー)氏(President and CEO, AMD)はRadeon Instinctの背景として「コンピューティングが没入的(Immersive)で本能的(Instinctive)なものになりつつある」と説明。そうした時代には、データセンターが変化する必要があり、高性能なCPUだけでなく、高性能なGPUと、CPUとGPUを連携させる仕組みが必要だとした。その両方を備えるのはAMDだけ、という主張だ。

満を持してGPUコンピュート市場に攻め入るAMD

 Radeon Instinctイニシアチブは、一言で言えば、AMDによるGPUコンピュート市場への“再”参入宣言だ。GPUを汎用に使うGPUコンピュートは、現在、NVIDIAのほぼ独擅場となっている。NVIDIAの対抗馬は、これまではAMD GPUではなくIntelの「Knights Landing(ナイツランディング:KNL)」やFPGA(Field-Programmable Gate Array)、専用アクセラレータだった。AMDはこの市場への切り込みを何度か試みたが、目立った成功は収めていない。原因はいくつかある。

 1つは、2年前までのAMDが、CPUとGPUをダイ上で統合した「APU(Accelerated Processing Unit)」にフォーカスしてディスクリートGPUを積極的にGPUコンピュートに推進しなかったこと。GPUコンピュートのためのソフトウェアプラットフォームを「HSA」として他社を巻き込み広げようとしたため、策定に時間がかかったこと。そして、おそらくはGPUコンピュート市場の急拡大を予測していなかったことだ。

 しかし、状況は変わった。現在、AMDはAPUを全ての市場に当てはめる戦略を止め、ハイエンドのCPUとGPUはそれぞれディスクリートとする戦略へと切り替えたように見える。両プロセッサ間は、コヒーレントインターコネクトで接続する方針をアナウンスしている。ソフトウェアについては、AMDはGPUをオープン化する「GPUOpen」イニシアチブを1年前に立ち上げ、オープンソース化を推進。その成果がようやく浸透し始めた。一方、GPUコンピュートは、マシンラーニングの唐突な勃興によって、HPC(High Performance Computing)市場だけでなく、幅広い市場に急速に浸透しつつある。データセンタでのニューラルネットワークの「学習(Training)」と、エッジ側での「推論(inference)」にGPUが使われている。

マシンラーニングの幅広いアプリケーション。特にこの中のセキュリティが欧米では爆発的に花開こうとしている
リアルタイムの推論と高速な学習のためのニューラルネットワークアルゴリズムは演算能力を必要とする

 現在、AMDはマシンラーニングの波に対応したGPUコンピュート製品の投入を迫られている。ここで乗り遅れると、HPCという相対的に狭い(金額は大きいがノードが少ない)市場だけでなく、「全てのデータセンターにGPUが入る(かも)」という絶好のチャンスを致命的に逃してしまうことになる。AMD自身も、ディスクリートGPUセントリックな方向に転換し、ソフトウェアの土台もオープンソースのコミュニティの力も借りて整った。さらに、FinFETプロセスとスタックドDRAMによってGPU自身の性能も急激に上がる時期で、マシンラーニング向けの拡張を加えた新GPU「Vega」の投入というタイミングが合う。Radeon Instinctは、こうした状況での投入となる。

Radeon Instinct発表までに、過去1年半にイノベーションが続いていた
Radeon InstinctとROCmの上でマシンラーニングのフレームワーク群をサポートする

学習フェイズにVega、推論フェイズにPolaris

 Radeon Instinctのラインナップは、3世代のAMD GPUに渡っている。性能と電力の順番に、「MI6」、「MI8」、「MI25」となっている。MIはマシンインテリジェンスから来ているとみられる。数字は、FP16演算時のTFLOPS数を示すものと推測される。ちなみに、MI6は、007が所属していた英国の諜報機関MI6(Military Intelligence section 6)と同じ名称だ

 MI6はパッシブクーリングで5.7TFLOPS、224GB/secのメモリ帯域で150W以下の電力となっている。スペックから、14nm FinFETプロセスの「Polaris 10(グラフィックス製品ではRadeon RX 480)」であることが推測できる。

Radeon Instinctラインナップ。MI25がVegaベース

 MI8はスモールフォームファクタで8.2TFLOPS、512GB/secのメモリ帯域で175W以下の電力。スペックから28nmプロセスの「Fiji XT(グラフィックス製品ではRadeon R9 Nano)」であることが推測できる。Fijiアーキテクチャの低電力版だ。

 MI25がRadeon Instinctの目玉。次世代のVegaアーキテクチャベースで、パッシブクーリング。図では2倍のパックド演算となっており、AMDはQ&Aで、これがパックド(SIMD)フォーマットのFP16(16-bit浮動小数点)であると説明している。AMD GPUはFP32(32-bit浮動小数点)演算に最適化したパイプラインを備えている。しかし、Vegaでは、32-bitパイプで16-bitの浮動小数点演算を2並列のSIMD(Single Instruction, Multiple Data)フォーマットで行なうことで、FP16時にFP32の2倍の性能を出すことができる。

 これは、マシンラーニングのトレーニングフェイズにおいて、データ精度を下げたFP16の利用が進んでいる状況に対応したものだ。現在のGPUコンピュートは、マシンラーニングのために低精度のサポートの競争になっており、NVIDIAもPascal(パスカル)ではFP16に対応している。

 AMDは、マシンラーニング市場において、この3つの製品が棲み分けると説明する。認識を行なう推論フェイズ向けはPolarisのMI6で、MI8も推論フェイズ向けの位置付けだ。それに対して、MI25は学習フェイズと、ラージな推論向けとAMDは説明する。データセンターで学習やラージスケールの推論に使われるのは、MI25ということになる。

Radeon Instinctの性能。MI8/MI25でMIOpenを使った場合、NVIDIAのTitan-Xを上回る性能になるとAMDは主張する

オープン戦略を推進するAMD

 AMDのRadeon Instinct GPUコンピュート戦略の鍵は、オープン化だ。

 「Radeon Instinctは単なる製品ではなく、完全に新しいイニシアチブだ。従来のコンピュートのインフラストラクチャは、ホモジニアス(Homogeneous)なプロセッサに、専用化されたアクセラレータやインターコネクト、アクセラレータのソフトウェアが残る世界だった。しかし、次世代のコンピュートインフラストラクチャでは、ヘテロジニアス(Heterogeneous:異種混合)プロセッサで、オープンソースのソフトウェア層、オープンなインタコネクトとアクセラレータとなる」。

ラジャ・コドゥリ氏

 AMDのRaja Koduri(ラジャ・コドゥリ)氏(Senior Vice President and Chief Architect, Radeon Technologies Group, AMD)は、Radeon Instinctで開けるビューをこのように語る。オープン化とスケーラビリティが鍵になると見るのがAMDの思想だ。

今日のコンピュートインフラストラクチャ
今後のコンピュートインフラストラクチャ

 AMDはまず、ディープラーニングとハードウェア仮想化によるマルチユーザーGPU(Multiuser GPU:MxGPU)は相性がいいと説明する。GPUを複数クライアントで円滑に共有化できる、ハードウェアコンテクストスイッチングベースのマルチユーザーGPUをAMD GPUはサポートしている。この機能によって、複数の推論インスタンスをバーチャルGPU上でコンシスタントにサポートできるためで、PCIデバイスの仮想化「Single Root I/O Virtualization(SR-IOV)」によって効率的に実現される。

 マルチGPUでは、ROCmソフトウェアインフラで「Remote Direct Memory Access (RDMA)」によるマルチGPU間のコミュニケーションが可能で、「コースグレインシェアードバーチャルメモリ(Coarse-Grain Shared Virtual Memory:粗粒度共有バーチャルメモリ)」もサポートする。さらに、AMDは、プロセッサ間のコヒーレントインターコネクトの標準規格化にも加わっている。現在、「OpenCAPI」「CCIX (Cache Coherent Interconnect for Accelerators)」「Gen-Z」の3つのコンソーシアムがあるが、AMDはその全てに参加している。

マルチユーザーGPUとマシンラーニング
ZenサーバーCPU「Naples」プラットフォームとRadeon Instinct
右下にあるように、AMDはOpenCAPI、CCIX、Gen-Zに加わっている

 サーバーベンダも、Radeon Instinctのサーバー製品を準備する。いずれもRadeon Instinct MI25ベースのシステムとなっている。MI25が16ユニットのシステムで400TFLOPS、4ユニットのシステムで100TFLOPSとなっている。冒頭で述べたように、MI25が25TFLOPS程度で予定されていることが分かる。最大規模のMI25が120ユニットのシステムは、なんと合計で3PFLOPSとなる。ただし、いずれもFP16の値だ。

 AMDは、来年(2017年)、新CPU Zenと、新GPU Vegaの、2つの大型アーキテクチャの投入を控えている。Zenの投入後は、Zen+Vegaの組み合わせのRadeon Instinctプラットフォームを前面に押し出してくるとみられる。