後藤弘茂のWeekly海外ニュース

NVIDIAの次期GPU「Pascal」の概要

（2014/3/27 06:00）

キーノートスピーチでPascalを発表へ

　NVIDIAは、次期GPUアーキテクチャ「Pascal(パスカル)」の概要を発表した。米サンノゼで開催されているNVIDIAの技術カンファレンス「GPU Technology Conference(GTC)」において、NVIDIAは同社のGPUロードマップを刷新。現在、投入しつつある新アーキテクチャ「Maxwell(マクスウェル)」に続いて、2016年にPascalをリリースする予定であることを明らかにした。

現在最新のMaxwellアーキテクチャ
PDF版はこちら

　同社のパフォーマンスGPUは、科学者の名前をコードネームに借用している。今回も、数学・物理学者で機械式計算機の産みの親であるブレーズ・パスカルから名前を取った。

NVIDIAのJen-Hsun Huang(ジェン・スン・フアン)氏(Co-founder, President and CEO)

　NVIDIAのJen-Hsun Huang(ジェン・スン・フアン)氏(Co-founder, President and CEO)は、GPUのオープニングキーノートスピーチの中で、現在のGPUの抱えるボトルネックがデータ帯域にあることを説明した。スピーチでは東京工業大学の青木尊之教授のプレゼンテーションが紹介され、帯域の制約によってアプリケーションパフォーマンスが制限され、マルチGPUのスケーリングが鈍化することが示された。

　Huang氏は、ボトルネックがGen3でも片方向16GB/secと狭いPCI Expressや、数十GB/secに留まるCPUメモリなどにあり、300GB/sec以下のGPUメモリもGPUの演算パフォーマンスと比べるとボトルネックになっていると示した。その上で、こうした問題を解決する手段として、Pascalに新しいチップ間インターコネクト技術「NVLink」と超広帯域メモリ「3Dメモリ」を導入することを明らかにした。3Dメモリは、NVIDIAがこれまで2015～16年頃に導入する予定だった「Volta(ボルタ)」で説明していた「スタックドDRAM」と中身は同じで、言い方を変えただけに過ぎない。

NVLinkでGPU同士やGPUとIBM CPUを接続

　NVLinkはチップ間インターコネクト技術。NVIDIAはNVLinkを使って、Pascal GPU同士やCPUとGPUの間を接続する計画だ。CPUではIBMのPowerがNVLinkに対応する。サーバー/HPC(High Performance Computing)市場では、IBMはGPUを持たないことが弱味となりつつあり、NVIDIAとの協力に踏み切ったと推測される。

　NVLinkの使い方は3つに分かれる。(1)IBM Power CPUのサーバーなどの場合はCPUとGPUの間をNVLinkが接続。(2)NVLinkに対応しないIntel CPUプラットフォームの場合は、CPUとGPUの間はPCI Expressで、GPU同士をNVLinkで接続する。(3)NVIDIAはMaxwell世代から最上位GPUにはARM CPUコアを載せると見られているため、CPUコアを内蔵したGPU同士を相互接続する場合にもNVLinkが使われると見られる。その場合は、IntelのQuickPath Interconnect(QPI)やAMDのHyperTransportと似たような使い方となる。

　NVLinkはディファレンシャルシグナリング(差動信号)でエンベデッドクロックの高速シリアルインターコネクトだ。帯域は80GB/sec～200GB/secと非常に広く、PCI Express Gen3のx16に対して5～12倍の帯域を実現する。物理的にはPCI Expressとは異なるが、論理層はPCI Expressと互換性を取りプログラミングモデル上はPCI Expressとして使うことができる。

　NVLinkの基本のビルディングブロックは8レーンの双方向リンクだ。Pascal GPUは複数の8レーンリンクを備えており、図を見る限り最大4個までのGPUを1ホップで相互接続できる。CPUとPascalを1対1で接続する場合は、CPUとPascalの双方が備えるNVLinkのリンク全てを使うことも可能だと見られる。また、NVLink対応Power CPUに、複数個のPascalを接続することも可能だと推測される。

　GTCのキーノートスピーチでは、NVLinkでCPUと接続する場合のパッケージの提案も示された。下の写真で、Huang氏が掲げているのがPascalのNVLinkボードだ。通常のPCI Expressカードより、小さなサイズにまとめられている。

ISSCCで高速シリアルインターコネクトを発表したNVIDIA

　NVLinkは2月の半導体学会ISSCC(IEEE International Solid-State Circuits Conference)で、20Gbpsと極めて高速なシリアルインターコネクト技術を発表した。この発表の技術は半二重なので、NVLinkとは異なる。しかし、NVLinkがシリアルインターフェイスを独自開発していることは確かで、その技術はNVLinkにも反映されていると推測される。

　ISSCCの発表技術は、ディファレンシャル信号の16レーンで1リンクを構成しており、16レーンの帯域は320Gbps(40GB/sec)となる。試作チップのプロセス技術は28nmで、現在のNVIDIA GPUのプロセス技術と同じ世代。ダイエリアは1.62×1.6mmと比較的小さい。通常のプリント基板であるFR4 PCBで配線が可能だ。

　NVIDIAが最高20Gbpsのインターコネクト技術を持っているとすると、片方向8レーンのリンクの帯域は、エンベデッドクロックのロスを考えなければ片方向20GB/secとなる。NVLinkは80～200GB/secとされているため、ISSCCの技術から逆算するとPascal GPUは4～10リンクを備える計算となる。

　また、マルチGPUの説明では、PCI Expressスイッチでの接続の5倍の帯域とされている。PCI Express x16は片方向16GB/secなので、5倍の帯域は計算上80GB/secとなり、4リンク分となる。リンク数が多くなってしまうところが不自然だが、ISSCCのスペックから逆算したラフな数字はこのようになる。

　いずれにせよ明確なことは、NVLinkが異常なほど広帯域で、おそらくピン当たりの転送レートが極めて高いシリアルリンクであることだ。“狭くて速い”を追求したインターコネクトとなる。エンベデッドクロックのシリアルリンクであるため、等長配線を気にしなくて済む(ディファレンシャル信号線のペア同士は等長)ため、チップの配置の自由度が増す。

DRAMチップを積層する3Dメモリ技術

　Pascalのもう1つの新技術3Dメモリは、DRAMチップを積層してシリコン貫通ビア(TSV:Through Silicon Via)で直接続することで広帯域化と低消費電力化を図る技術だ。パフォーマンスGPUに使える技術では、Micronが中心となって推進する「Hybrid Memory Cube(HMC)」とJEDEC(半導体の標準化団体)が規格化を進めている「HBM(High Bandwidth Memory)」の2種類がある。グラフィックス用に有力視されているのはHBMだが、HMCもHPC(High Performance Computing)市場をターゲットの1つとしている。

　今回のHuang氏のキーノートスピーチでは、GPUのダイの周囲に4個のスタックのDRAMダイ群が配置されたカードがPascalとして示された。また、メモリ帯域のターゲットが1TB/secであることも示唆された。写真で見る限り、NVIDIAの言う3Dメモリは、ベースダイの上に、DRAMダイが最大8層スタックできると見られる。

　また、Huang氏のキーノートスピーチでは、Pascalの3Dスタックメモリの製造方式が、Chip-on-Wafer(CoW)であることやDRAMメモリ容量も2.5倍に増えることなどがアナウンスされた。

　NVIDIAは現時点では、スタックドDRAMの技術が何かは、明確には言っていない。しかし、GTCの1カ月前のISSCCでは、SK HynixによってHBMの試作チップの論文が発表された。GTCでもSK HynixはHBMを大々的に展示しており、Pascalの3DメモリがHBMであることを強く示唆している。

　HBMは以前のレポート時から、より詳細な仕様が判明している。HBMの特徴は、1,024-bitと非常に幅の広いインターフェイスを、中程度の転送レートで駆動することで超広帯域を低い消費電力で実現することだ。NVLinkとは対照的に「広くて遅い」インターフェイスとなっている。1,024-bitの極めて広いインターフェイスは、チップ同士を積層して、ピッチの狭いマイクロバンプで接続することで実現する。

　従来のシリコンチップはダイの片面にしかバンプを配置できなかったため、直接ダイを重ねて接続することができなかった。しかし、ダイのシリコン基板を貫通した穴で垂直方向の配線を行なうことができるTSV技術を使うと、ダイの両面にバンプを配置できる。HBMでは、DRAMダイを直接バンプで接続できるため、高速で低消費電力のインターフェイスとすることができる。

　以前のレポートでは、DRAMチップをインタポーザ上に直接スタックすると説明したが、最終的な仕様はスタックの最下層にベースロジックダイを配置する仕様となっている。ロジックダイとGPUまたはCPUの間も、1,024bitのインターフェイスで接続する。GPUダイはDRAMスタックに隣接して配置し、GPUとDRAMスタックの間は、シリコンインタポーザと呼ばれる、TSV技術を使ったベースの配線で結ぶ。ただし、現在、通常のオーガニックパッケージでも配線できるかどうかのテストも行なわれているという。

Pascalでは最大1TB/secの帯域と32GBのメモリ容量が視野に

　HBMは4個のDRAMダイをスタックする構成を基本としている。HBMのDRAMダイは、各2チャネルの構成で1チャネルが128-bitのインターフェイスとなっている。4個のダイのスタックで合計8チャネル、1,024-bitとなる。言い換えれば、HBMの1,024-bitインターフェイスは、8つの個別のメモリチャネルで構成されており、各チャネルが並列で動作する。4ダイをスタックした場合にフルのメモリ帯域となる。1～3個までのスタックでは、フルのメモリ帯域にはならない。

4ダイのスタック
PDF版はこちら

　HBMはピン当たりの転送レートで1Gtpsを最初のターゲットとしている。DRAMメモリセルからのプリフェッチは2で、DDRと同じだ。1,024-bitインターフェイスで、1Gtps時にはHBM全体で1Tbps(=128GB/sec)のメモリ帯域となる。ちなみに、下のSK Hynixのスライドでメモリアクセス粒度が256-byteとなっているのは8チャネルを合計した数字で、1チャネル当たりのアクセス粒度は32-byteだ。

　GPUチップ全体のメモリ帯域は、PascalがHBMの4-Hi(4層)スタック構成なら、合計で512GB/secのメモリ帯域となる。しかし、HBMはすでに高速化の計画があり、2Gtpsかそれ以上の転送レートへと引き上げるとしている。2Gtpsの場合には4個の4-Hiスタックで1TB/secとなる。Huang氏のスライドで、DRAM帯域が点線で曖昧に示されているのは、Pascalの時点で利用可能なDRAMの転送レートが、まだ見えていないためと見られる。

各DRAM技術のメモリ帯域と転送レート
PDF版はこちら

　SK Hynixが2月に発表したHBMは、各ダイが2G-bitで、4-Hiスタック合計で8G-bit(1GB)だった。8個のDRAMダイのスタックも予定されているが、その場合は2ランクとなる。4-Hiスタックを4個使う場合は4GBのメモリ容量となる。しかし、GTCではSK Hynixは展示ブースでのプレゼンテーションで、8G-bit容量のダイも生産する計画であることを明らかにしている。8G-bitダイの場合は、4-Hiスタックの容量が4GBで4個のスタック合計で16GB。8-Hiスタックの容量は8GBで4個のスタック合計で32GBとなる。現在のTesla(テスラ)系製品の最大メモリ構成は12GBなので、8G-bitチップで2.5倍を予定していることが分かる。

　SK HynixはHBMを今年(2014年)末までに出荷するとしている。Pascalの2016年とは隔たりがあるが、新技術のDRAMチップが顧客に最初に出荷されてから、実際に搭載製品が市場に出るまでタイムラグがあるのは一般的だ。DRAM技術自体の動向は、現在多様化の時期を迎えており、最も入り乱れた状態を想定すると下のような図になる。

DRAMの技術動向
PDF版はこちら

　パッケージ内ではDRAMとGPUを広くて遅いインターフェイスで結び、パッケージ外ではプロセッサ同士を狭くて速いNVLinkで結ぶ。NVIDIAのインターフェイス戦略は、チップパッケージの内外で逆の方向へと展開している。

（後藤弘茂 (Hiroshige Goto)E-mail）