後藤弘茂のWeekly海外ニュース

来年ラッシュとなる新メモリ「HBM2」の採用

GPUメモリは来年(2016年)のHBM2で1TB/secに

 GPUのメモリ帯域が急ピッチに上がりつつある。昨年(2014年)のハイエンドGPUは300GB/secの帯域だったのが、今年(2015年)は「Radeon R9 FURY(Fiji)」でメモリ帯域は512GB/secに上がり、来年(2016年)には、AMDとNVIDIAのどちらも1TB/secのメモリ帯域に突入する見込みだ。2017年以降もメモリ帯域の拡張が予想されており、GPUメモリ帯域は急拡大する。

HBM1とHBM2の違い

 メモリ帯域が拡張される最大の理由は、もちろん、ハイエンドGPUのメモリが「HBM(High Bandwidth Memory)」へと移行するからだ。もっとも、300GB/sec台のメモリ帯域だったGDDR5と比較すると、現在のFijiのHBM1の512GB/secはそれほど巨大なジャンプではない。しかし、来年のHBM2の1TB/secとなると、1年で倍速なので、ギャップは大きい。

メモリバス幅のロードマップ
PDF版はこちら

 HBM1規格とHBM2規格、それぞれが市場に出てくるタイミングがわずか1年ちょっと近接していることがギャップを生んでいる。また、HBM1に対して、HBM2では、転送レートが2倍になるだけでなく、さまざまな改良やECC版の付加などが加えられ充実し、製造メーカーも複数となる。JEDECでHBMの規格化を主導した、AMDのJoe Macri氏(CVP and Product CTO, AMD)は、その経緯を次のように説明する。

 「HBM1とHBM2の規格化は平行して進められた。だから、HBM2もこんなに早く規格化された。最初のHBM1は、迅速に市場に出すために、限られた技術を採用した。それに対して、HBM1をベースに規格化されたHBM2は、最新のDRAM技術をベースにしている」。

 結果として、HBM1は投入されてから2年以内に次のHBM2のラッシュに見舞われることになった。HBM2の利点が大きいため、HBM系メモリの採用はHBM2からと考えるチップベンダが多いという。例えば、NVIDIAは、来年のHBM2のタイミングでHBM系メモリを採用する。

HBM2を採用するNVIDIAのPascal

 NVIDIAのJen-Hsun Huang(ジェンセン・フアン)氏(Co-founder, President and CEO)は、HBMについて6月のCOMPUTEX時に次のように語っている。

 「私は、次世代GPU「Pascal(パスカル)」に、広帯域メモリを採用することを明らかにした。我々は近い将来、(HBM型の)スタック3Dメモリを使うことができると考えている。しかし、現時点では、コストは依然として高く、供給も非常に限られている。私の意見としては、この種のメモリは、まだ使うには少しばかり早すぎると見ている。しかし、すぐに我々が使うべき時が来るだろう。その時になれば、スタックメモリの利点を享受できると考えている」。

 HBMのコストが高い要素の1つは、現状のHBMに必須となっているTSVインタポーザ。TSVインタポーザは、シリコンベースで、TSVホールを空けて配線した、トランジスタを形成していないチップのようなものだ。このインタポーザの上にGPUとHBMを配置して、配線しているため、コストがかかる。また、HBMの規格で、最終的に最下層にロジックチップが必要になったこともコスト要因だ。

現状のGPUやCPUではインタポーザが必須
現在のHBMのアーキテクチャ
PDF版はこちら
ダイをスタックするHBM

 ただし、TSVインタポーザについては、普及が進めばコストは低減するとMacri氏は説明する。そのため、コスト低減は、普及を待っているという側面もある。Huang氏の言うコストのタイミングには、TSVインタポーザのコストも含まれていると見られる。このことは、普及が始まると、コストも下がり、さらに使いやすくなるというポジティブスパイラルが働くことを意味している。もっとも、それでもTSVインタポーザはコスト要因であるため、TSVインタポーザを使わないHBMのソリューションも研究されてはいる。

HBM1とHBM2で異なる規格化のプロセス

 AMDとNVIDIAのHBMに対する時間差には、こうしたコストや量産ボリュームなどの問題のほかに、規格化のプロセスも関係している。HBMは、AMDが開発の当初から深く絡んでいた規格だからだ。これは、AMDとJEDECの方が関係が深いことが影響している。Macri氏は次のように語る。

 「HBM1とHBM2はどちらもJEDEC規格だ。しかし、HBM1は、AMDとSK hynixの2社のスタンダードに近かった。それに対して、HBM2は、“フルJEDECスタンダード”で、より多くの企業のサポートを得ている。そのため、HBM2の方が広く使われることになるだろう。

 これは、HBM特有のことではなく、JEDECでの標準化の典型的な道だ。新規格は、まず少数のパートナーによる内部作業でスタートし、その仕様がJEDECの標準として賛同を得て、より多くの企業の参加を得る。後半の段階で、NVIDIAなどの企業も参加して来る。誰もが、ケーキの分け前を得ようと来るんだ(笑)。これが“JEDECプロセス”だ」。

 AMDによると、HBMの規格化はもともとAMDとSK hynixによる共同作業でスタートし、その仕様がそのままHBM1となった。その後、規格の策定に多くの企業が参加して拡張されたのがHBM2で、こちらはSK hynixだけでなく、Samsungなども製造する。こうした経緯を経ているため、HBM1は、最初から関わっていたAMDでないとインターフェイス設計などの時間を考えると難しい。こうした背景を考えると、現段階でAMDだけがHBMを採用できた理由も明確になってくる。

 逆を言えば、AMDは規格策定を推進した手前、採用せざるを得ないという事情がありそうだ。HBM1は、言ってみればHBM規格の助走段階で、来年のHBM2で花開くことが予想される。HBM系メモリのコストが下がり普及するかどうかを本当に測るのは、来年以降ということになる。

Samsungも広い市場をターゲットにHBMに参入

メモリ容量が4倍~8倍になるHBM2

 HBM2世代の利点の1つに、メモリ容量もある。HBM1で製品化されているのはSK hynixのもので、1個のダイは2G-bit容量。これを、4Hi(4スタック)で4枚のダイを重ねることで、1GB(8G-bit)のモジュールとしている。そのため、Fijiのように4スタックを使っても、メモリ容量は4GBにしかならない。

HBMメモリのスタック
PDF版はこちら

 それに対して、HBM2では、8G-bitのダイが登場する。そのため、4Hiのスタックのメモリ容量は4GBになる。さらに、HBM2では、8枚までのダイを重ねる8Hiスタックも規格化されている。そのため、HBM2の8G-bitダイで8Hiなら、1スタックが最大8GBに達する。

 ちなみに、HBM規格はHBM2も4スタックが基本となっており、8スタックの場合は2ランク構成となる。つまり、4Hiでも8HiでもDRAMチップ自体は変わらない。そのため、実際には、やろうと思えばHBM1でも8Hiにすることができる。実際、AMDのFijiの予想では、2個の4Hiパッケージを組み合わせた擬似的な8Hi構成にするという報道もあった。Macri氏は次のように語る。

 「HBM1でもやろうと思えば8スタックは可能だが、私は、どの企業もHBM2まで8スタックは待つと思う。急ぐほどの利点はない。

 TSVによるスタックの積層数には、それを制限する基本的な要因はない。原理的には、いくらでもスタックできる。もちろん、スタックしたダイが全て動作しなければならないので、製造コストは問題になるが、コストが許せば可能になる。

 そのため、8スタックの先は、16スタックも技術的には可能だ。それは、多分HBM2の次のHBM3の世代になろうだろうが可能性はある」。

 16Hiなら、1スタックのメモリ容量は16GBになる。メモリ容量が欲しいHPC(High Performance Computing)などのソリューションでは将来歓迎される可能性はある。もっとも、スタックしなければならないのは、ダイ当たりの容量が制約される場合だ。

 「DRAMチップ自体のビット密度も上がっていく。そのため、ダイを積層しなくてもHBMモジュールの容量は上がる。だから、積層数はDRAMのビット密度の上昇との兼ね合いとなるだろう。もちろん、DRAMのビット密度も課題が多く、今後様々な工夫が必要になる」(Macri氏)。

 DRAMのビット密度を高めるコストと、積層するコスト。そのどちらが高くつくかによって、状況が変わる。

SK hynixの製品計画

2つの異なるレイヤのECC技術

 NVIDIAがHBM1を採用しなかった理由の1つに、最初のHBM1製品にはECCが欠けていることもある。HPCやサーバーではECCが必要とされるが、最初のHBMでは提供できない。そのため、NVIDIAはHBMでのECCを強く推進していた。

第1世代のHBM1のダイ

 HBM2世代では、オプションとしてECC機能が提供される。もっとも、JEDECももともとHBMにECCが必要という認識はあったが、HBM1は、市場に出すことを急いだために、Non-ECC版しか用意しなかったという経緯があるとMacri氏は言う。

 「我々は最初の世代のHBMにはECCは実装しなかった。市場に出すことを急いだからだ。しかし、2世代目のHBM2にはECCが加わる。

 HBMへのECCの実装は、非常に標準的な形態となる。一定粒度毎にECCコードを生成する。標準的な実装なので、ECC版のHBMは、通常のHBMよりも、各チャネルのインターフェイスがより広くなる。伝統的なECC版DIMMと同じだ。

 HBM2に我々が加えたECCが伝統的な実装であるのは、HPC(High Performance Computing)やサーバーのアプリケーションでのECCニーズをターゲットにしているからだ。そうした市場はこれまでも伝統的ECCを使ってきた。ECCはHBM2規格の特定用途向けのオプションであり、コンシューマ向けでは非ECC版を提供する」。

 HBM2のECC版は、従来のECC DIMMと同様に、各チャネル毎にECCビットを付加する形を取っている。その意味では、DIMMがHBMスタックになっただけで、システム側から見た形態は変わらない。しかし、現在、JEDECとDRAM業界は、別な形でのECCも研究しているという。DRAM内部で自動的にECCを行なう、より汎用なインターナルアレイECCだ。

 「JEDECでは、伝統的なECCとは別なタイプのECCについても議論している。将来的には、(コンシューマ版も含めて)全てのDRAMが、必ずECCを必要とするようになると考えているからだ。DRAMのビットセルを継続してスケールダウンし続けるためには、何らかのタイプのインターナルECCが必要となる。DRAMのアレイは、ますます安定しなくなり、ゲームグラフィックスでも、安定したメモリアレイが必要となる日が来るだろう」(Macri氏)。

 DRAMセル微細化の限界を超えるためには、今後はインターナルアレイECCを加える方向であることが分かる。DRAMのセルは微細化の限界に近づいており、エラーレイトがどんどん高まっているからだ。ただし、それは、HBMでのECC実装とは別なレイヤの話として進展していることが分かる。

HBM後もGDDR5の後継メモリも登場する可能性が

 HBMの登場によってグラフィックスメモリのGDDR5は終焉に向かい、最終的にHBM系メモリに置き換わって行くのか。GDDR5には、スタック型ではない後継メモリ規格はもう登場しないのか。実は、そこにはまだ疑問符がある。JEDECでHBMとGDDRの両系統を担当するMacri氏は次のように説明している。

 「グラフィックスメモリの動向は興味深い。もちろん、ディスクリートGPU市場では、HBM系メモリへの移行は進む。しかし、GDDR5後継のメモリも、名前はどうなるかは分からないが、1世代は続く可能性がある。

 つまり、HBMのようなスタック型メモリと平行して、GDDR5のような非スタックの単体グラフィックスメモリが、もう1世代続くかもしれない。そうした(非スタック型)メモリが2世代続くとは思えないが、後1世代はありそうだ。もちろん、動向は需要に左右されるが。

 実際に、GDDR5後継となるメモリについてもいくつかの開発は行なっており、GDDR5より優れたメモリを実現することはできる。技術的にはやれることはまだある。1世代はスタック系メモリと非スタック系メモリが併存するかもしれない。しかし、長い目で見ると、ディスクリートGPUのメモリの道は、HBM系メモリへと向かっていると思う」。

 現状では、AMDですらGPUラインナップのメモリを全てHBM系に置き換えることができていない。HBM系メモリが、ミッドレンジからメインストリームのGPUに降りて来るには、HBMとTSVインタポーザのコストが順調に下がったとしても、しばらくかかる。短期間にHBMへと以降させることは無理がありそうだ。そのため、GDDR5後継のメモリ規格が登場して併存する方向へと向かいつつある。

方向性が異なるJEDECの各メモリ
PDF版はこちら
HBMと既存のメモリ技術の違い

(後藤 弘茂 (Hiroshige Goto)E-mail