後藤弘茂のWeekly海外ニュース

AMDがGPUコンピュート向けGPU「CDNA」など製品ロードマップを刷新

AMDが恒例のロードマップ刷新を行なう

 AMDは、投資アナリスト向けのカンファレンスである「AMD Financial Analyst Day」を米サンタクララで3月5日に開催した。同社は、毎年、このカンファレンスで製品と技術のロードマップを刷新しており、今回もCPU、GPU、プラットフォームのすべてにわたってロードマップの刷新や技術の発表が行なわれた。

 冒頭、AMDのCEOであるLisa Su(リサ・スー)氏(President and Chief Executive Officer,AMD)は、同社の技術リーダシップが確固としたものであることを強調。CPUとGPUともに次々世代までの開発が進行中で、先端プロセス技術の適用も順調に進んでいることを明らかにした。また、AMDが力を入れるパッケージ技術や、チップ間インターコネクト技術についても、次の革新が待っていることも明瞭にした。さらに新アーキテクチャとして、GPUコンピュート向けのGPUアーキテクチャ「CDNA」が導入されることも発表した。

プロセスやパッケージ、インターコネクトの各技術で革新が続く
データセンターに力を入れるAMDはGPUコンピュート向け製品や次世代インターコネクトも開発

 AMDは、次世代のZen CPUコアアーキテクチャ「Zen 3」はTSMCの2世代目の7nmプロセス「N7+」で設計製造することを明らかにしている。その次の「Zen 4」は、メジャーノードである5nmプロセスとなる。Zen 3ベースの製品は今年(2020年)中に登場するという。AMDのMark Papermaster氏(Chief Technology Officer and Executive Vice President, Technology and Engineering, AMD)は、ファウンドリのプロセスロードマップがIntelより先行していることが、AMD CPUの進化を押し進める重要なファクタであると示した。

AMDのCPUコアアーキテクチャロードマップ
AMDが製造を委託するファウンドリとIntelのプロセス比較

 サーバー向けCPU製品では、Zen世代が「Naples(ネイブルズ)」、Zen 2世代が「Rome(ローマ:英語発音ではローム)」、Zen 3世代が「Milan(ミラノ:英語発音ではミラーン)」、Zen 4ベースが「Genoa(ジェノバ:英語発音ではジェノワ)」となる。

AMDのサーバーCPUロードマップ

 AMDはプロセッサをマルチダイ化するチップレットアーキテクチャによって、現在の製品のリードを実現している。そのため、AMDにとっては、チップのパッケージ技術が非常に重要となって来ている。今回のFinancial Analyst Dayで、AMDはパッケージ技術の展望を明らかにした。

 そのなかで、AMDは、積層型の3Dとインタポーザなどを使う2.5Dのハイブリッドである「X3D」パッケージを将来導入することを明らかにした。3DスタックしたHBMメモリを、2.5DでGPUダイと接続するハイエンドGPUは3Dと2.5Dのハイブリッドだが、AMDのX3Dはプロセッサ側もマルチダイの2.5Dになっていることが異なる。CPUコアやGPUコアの演算性能がアップするにつれて、メモリ帯域がボトルネックとなるため、AMDもIntelも、将来的にはプロセッサパッケージにHBM系などのメモリを統合する必要が出てくる。AMDのX3D構想は、それを見越したものだと思われる。

AMDのパッケージング技術ロードマップ

レイトレーシングを導入するRDNA 2アーキテクチャ

 AMDは、GPUアーキテクチャ「RDNA」のロードマップも刷新した。現在のRDNAの後継となる、年末までに登場する「RDNA 2」では、「レイトレーシング(Ray Tracing)」と「バリアブルレイトシェーディング(Variable Rate Shading)」がサポートされる。GPU製品コードネームとしては、現在のRDNAの「Navi(ナヴィ) 1x」に対して、RDNA 2ベースはNavi 2x、RDNA3ベースはNavi 3xとなる。AMDはRDNA 2でさらにパフォーマンス/ワットを50%引き上げるとしているが、レイトレーシングのパフォーマンス効率も含めるなら、この数字は納得ができる。

AMDのRDNAアーキテクチャベースのNavi 10
AMDのグラフィックス向けGPUアーキテクチャロードマップ
AMDのグラフィックス向けGPUアーキテクチャとコードネームの対照スライド
RDNA 2でさらにパフォーマンス/ワットを50%引き上げる

 従来は、AMDは世代が変わるごとにGPUコードネーム自体が変わっていたが、RNDAからはコードネームに付加したナンバーが変わる。Navi 2xは7nm世代のプロセスノード、Navi 3xはその後のプロセスとなっている。Navi 3xで想定されるのは、7nmプロセスの派生版であるEUV露光をより多くの層に導入したN6か、次の5nmプロセスN5となる。CPUでは5nmと明記しているのにGPUでは明記していない。5nmの先の可能性は低いので、6nmという可能性がある。

 RDNA 2の目玉はレイトレーシングだが、レイトレーシング自体は、AMD GPUベースの次世代ゲームコンソールにも実装される。ソニー・インタラクティブエンタテインメント(SIE)とMicrosoftそれぞれ向けの実装とAMD製品の実装には当然互換性があるものと思われる。レイトレーシングハードウェアの実装で先行するNVIDIA GPUを見ると、レイトレーシングのフローのなかで、レイを伸ばす「トラバーサル(Traversal)」とレイとオブジェクトの交差を判定する「インターセクションテスト(Intersection Test)」をハードウェアで実装している。AMDでも、この基本は変わらないと推測される。

レイトレーシングをハードウェアサポートするRDNA 2。低レベルAPIで性能を最大化するとしている

 AMDで、グラフィックスではより低いレベルのAPIへのアクセスで性能を引き出すことを強調した。この原則がレイトレーシングに当てはまるとするなら、レイトレーシングのローレベルのAPIも露出される可能性が高い。言い換えれば、レイトレーシングユニットをほかの用途に使うことも可能になると推測される。

 レイトレーシングハードウェアでは、トラバースされたレイが、3Dオブジェクトと衝突するかどうかを判定する。この手法は、シューティングゲームなどでのあたり判定にも使うことができる。じつは、ゲームでは応用範囲がレイ以外にもある。実際に、SIEの次世代ゲーム機「PlayStation 4(PS5)」では、レイトレーシングユニットのローレベルAPIが開発者に公開され、ガンシュートなどで利用できるようになると言われている。

GPUコンピュートに最適化した「CDNA」アーキテクチャを導入

 GPUでは、もう1つ重要な発表があった。AMDは新たにコンピュートに最適化した「CDNA」アーキテクチャを、GPU製品に導入することを発表した。AMDは、従来は「GCN(Graphics Core Next)」アーキテクチャで、グラフィックスとコンピュートの両方をカバーしてきた。実際には、メインストリームGPUとハイエンドGPUでは多少アーキテクチャが異なっていたが、基本のアーキテクチャは同一だった。しかし、今後は、グラフィックス向けとコンピュート向けで、アーキテクチャが明確に分化すると見られる。

コンピュート向けのGPUアーキテクチャCDNAを導入
CDNAアーキテクチャのフィーチャ

 AMDはグラフィックスに最適化した「RDNA」アーキテクチャをすでにグラフィックス製品には導入している。RDNAは、グラフィックスでのパフォーマンス/ワットを大幅に引き上げた。しかし、GCNからのアーキテクチャ拡張の多くは、じつはグラフィックスに最適化したものではなく、コンピュートでも効率を上げるものだった。ベクタの粒度を小さくし、Wavefront間の命令スケジューリングをハードウェアベースとして命令実行のレイテンシを低減したことは、コンピュートでも利点がある。

AMDのRDNAアーキテクチャでの命令スケジューリング
PDF版はこちら
AMDのGCNアーキテクチャでの命令スケジューリング
PDF版はこちら

 CDNAは、RDNAとアーキテクチャのコアの部分は共有しながら、よりコンピュートに振ったアーキテクチャだと推測される。ポイントの1つは、AMDがマシンラーニングで重要となるテンサオペレーションへの最適化を挙げていること。Q&Aセッションでは、テンサオペレーションにフォーカスした、より高密度な演算を加えたと説明している。テンサオペレーションのためのユニットか、ベクタユニットへの拡張が加わると推定される。その一方で、RNDA2で導入するレイトレーシングユニットなどは、CDNAには含まれないと見られる。

 コンピュートに最適化したCDNAの導入と平行して、AMDはコンピュート向けのGPUソフトウェア層の整備も進める。AMDはコンピュート向けソフトウェアプラットフォームは「AMD ROCm」と名づけている。まず、昨年(2019年)のROCm 3.0で、マシンラーニングのプラットフォームで最有力の「TensorFlow(テンサーフロー)」と「Pytorch(パイトーチ)」を正式にサポートした。また、HPC(High Performance Computing)向けのライブラリ群もサポートし、今年(2020年)のROCm 4.0では、HPCアプリケーションをフルサポートできるようにする。このほか、AMDは、同社のGPUアーキテクチャが、ハードウェアベースの仮想化でGPU内部のリソースを分割できる点も、データセンターでの強みとして示した。

CDNAアーキテクチャのコンピュートGPUロードマップ
AMDのGPUコンピュートソフトウェアスタック
AMDのGPUコンピュートソフトウェアプラットフォームROCmのロードマップ
AMD GPUのハードウェアベースの仮想化サポート

エクサスケールスーパーコンピュータを2件獲得したAMD

 AMDは、CPUやGPUのプロセッサを接続するインターコネクト技術についても展望を明らかにした。AMDはCPU同士を、独自プロトコルのInfinity Fabricで接続する第1世代のInfinityアーキテクチャをZenで導入した。さらに、GPU側にもInfinity Fabricベースの独自インターコネクトを実装してGPU同士を相互接続する第2世代のInfinityアーキテクチャも導入した。しかし、第2世代Infinityアーキテクチャでも、CPUとGPUの接続はPCI Express Gen4.0を採用している。

AMDのインターコネクト技術Infinityアーキテクチャのロードマップ
AMDの次世代Infinityアーキテクチャ

 今回のFinancial Analyst Dayでは、AMDは、第3世代のInfinityアーキテクチャを明らかにした。第3世代では、CPUとGPUの間も、Infinity Fabricベースの広帯域インターコネクトで接続される。また、GPU同士は最大8 GPUまで相互接続するアーキテクチャとなる。結果として、CPUとGPUはそれぞれフルのキャッシュコヒーレンシが保たれた状態でメモリ共有が可能となるという。また、CPUとGPUの間の帯域はPCI Express Gen4の2.25倍になり、レイテンシも低減される。

 AMDはこうした技術を総合してエクサスケールのスーパーコンピュータ市場に切り込んで行く。AMDは、1.5 ExaFLOPSが見込まれているOak Ridge National Laboratory (ORNL)の次世代スーパーコンピュータ「Frontier(フロンティア)」にCPUとGPUを納入する。今回のFinancial Analyst Dayでは、さらに、Lawrence Livermore National Laboratory(LLNL)のエクサスケールスーパーコンピュータ「El Capitan」にも、GenoaとCDNA2が使われることを明らかにした。

AMDが採用されるLawrence Livermore National Laboratory(LLNL)のエクサスケールスーパーコンピュータ「El Capitan」