後藤弘茂のWeekly海外ニュース

HBM2がメインストリームのCPUやAPUに採用される日

明確になってきたHBMの市場とシステム構成

 GPUでは1TB/sec以上の超広帯域を実現するHBM(High Bandwidth Memory) DRAM技術。しかし、HBMを適用しようとしている市場は、グラフィックス用途だけではない。最終的には、GDDR系メモリよりも広い市場を目指している。今年(2016年)登場するHBM2世代で、昨年(2015年)のHBM1と大きく変わった点は、アプリケーションの姿が明瞭になって来たことだ。これには、いくつかの理由がある。

 まず、HBMの採用が広がることが明確になったこと。NVIDIAも次世代GPU「Pascal」採用し、ネットワークデバイスなどでの採用も進み始めた。さらに、Intelが、JEDEC(半導体の標準化団体)でのHBM2の規格化に積極的に取り組んでおり、同社の採用もほぼ見えてきている。IntelはHBMの対抗規格であるMicron Technologyの「HMC(Hybrid Memory Cube)」もHPCに採用するが、HBM2の採用計画も平行させていると見られる。IntelがHMCとHBMをどう棲み分けるつもりなのかは注目される。

 下のスライドは、HBMで先行しているSK hynixがメモリカンファレンス「Memcon2015」で示したものだ。現在のHBMは、上から2つ目のグラフィックスに採用されており、オンパッケージのHBMがワーキングメモリとなっている。今後は、広帯域が切実に必要とされるもう1つの市場であるネットワーク機器にも採用が広がる見込みだ。また、HPCでのGPUコンピューティングも、このスタイルとなる。

明確な姿を取り始めたHBMのアプリケーション

 スライドの一番上のHPCとデータセンターサーバーは、広帯域かつ大容量が必要な市場で、ここではHBMとDDR系メモリの組み合わせが必要とされる。オンパッケージのHBMと、オフパッケージのDDR系メモリで、帯域と容量の両方のニーズを満たす。サーバー向けAPU(Accelerated Processing Unit)も、このソリューションとなるだろう。

 最大の焦点はクライアントPC。クライアントPCのCPU/APUについては、3段目のようなソリューションが妥当だ。コストの高いHBMは限定された容量で、メモリ帯域を稼ぐキャッシュ的な使い方をする。パッケージ内に1個程度のHBMスタックを載せ、メモリ容量自体は従来通りのDDR系メモリのメモリモジュールで確保する。コストが最重視されるPC市場では、この方式がリーズナブルとなる。

 上のSK hynixのスライドでは、一番下にモバイルやウェアラブルデバイスも分類されている。ただし、このエリア向けには、HBMと似た広インターフェイス幅技術のWide I/O2が規格化されている。こちらもどう棲み分けるかが注目される。

HBMの各市場向けの利点
整いつつあるHBMのエコシステム
グラフィックス、HPC、データセンター、ネットワーク機器が現在のHBM2のターゲット

クライアントPCへの採用も展望されるHBM

 現状では、HBM2は、GPUやHPC、ネットワークデバイスの分野から浸透すると見られている。これらの市場では、メモリ帯域が大きなボトルネックとなっており、広帯域化が急務だからだ。

 一方、クライアントPCでのHBM2の採用は、まだ不鮮明だ。しかし、ニーズは強い。なぜなら、GPUコアを内蔵したCPU/APUは、増大する演算性能にデータを供給するために、より広帯域なメモリを求めているからだ。CPUに内蔵するGPUコアの性能は、1TFLPOSに達しており、従来通りのDDR系メモリモジュールではカバーできなくなっている。IntelはすでにハイエンドCPUに、eDRAMをパッケージに封止したソリューションを実現しているが、より広い範囲で広帯域メモリを導入する必要が強まっている。

 AMDのJoe Macri氏(Corporate vice president, Product CTO, Corporate Fellow, AMD)は、APUへのHBM導入について、次のように語る。

 「APUでのHBMについては、私個人は、その可能性を強く信じている。また、それを実現するために動いている。私の意見になるが、APUでのHBMについて重要な点は、それをスーパーハイエンドのAPUのためだけのものにしない、ということだ。それでは、市場の5%しかカバーできない。私が望むのは、より広いミッドレンジの市場、例えば、IntelのCore i5に対抗するAMD A10などの市場だ。そこにHBMをもたらしたいと考えている。しかし、そのためには、BOMコストをそこまで引き下げなくてはならない。コストがカギとなる市場だからだ」。

CPU/APUのキャッシュに採用しやすいHBM2アーキテクチャ

 HBM2はHBM1に比べると、APUなどのキャッシュに採用しやすいアーキテクチャとなっている。それは、フルのメモリ帯域を得るのに必要なメモリ容量とダイ個数の粒度が小さいからだ。

 HBMは複数のDRAMダイを重ね合わせた構造になっている。HBM1では、1ダイ当たり2チャネル(256-bit)のメモリインターフェイスなので、4-Hi(4層)スタックでなければ、8チャネル(1,024-bit)のフルメモリ帯域を得られない。それに対して、HBM2では、1ダイ当たり最大4チャネル(512-bit)インターフェイスとなる。そのため、2-Hi(2層)スタックでフル帯域を得ることができる。HBM1では、256GB/secのメモリ帯域を得るのに2スタックで合計8個のDRAMダイが必要だったが、HBM2では1スタックで2個のDRAMダイで256GB/secを実現できる。

 比較すると、同じメモリ帯域時に、HBM2はHBM1に対して、HBMスタックの数は2分の1で、DRAMダイ数は4分の1となる。2-Hiスタックが1個の場合、メモリ容量は2GBと限定されるが、帯域は256GB/secとなる。HBM2は、メモリ容量は限定されていて構わないが、メモリ帯域が欲しいという用途に、うってつけの仕様となっている。ちなみに、大容量を望む顧客向けには、8-Hi(8層)スタックまでのソリューションが用意されており、4スタックで32GBのメモリ構成が可能だ。

8G-bitのHBM DRAMのスタック構成の容量
PDF版はこちら
SK hynixのHBM2の製品ラインナップ

 このように、HBM2はアーキテクチャ的に見た場合、CPU/APUのキャッシュのようなメモリ量は限定されていても広メモリ帯域が欲しいという用途に向いている。HBM1よりも、アーキテクチャ的には少ないDRAM個数とスタック個数で、広帯域のキャッシュを構成できる。アーキテクチャ上ではコストを下げることができる。しかし、HBM自体が、まださまざまな側面で高コストであり、そのままではCPU/APUのキャッシュに持って来ることが難しい。

課題となるHBMのコスト削減

 「HBM1からHBM2へと発展させるだけではなく、我々はHBMのコストを下げるための方法も検討している。将来のいつかの時点で、発表できるだろう」とAMDのMacri氏は語る。

 現在、HBMのコストが高い理由の1つは、シリコンインタポーザを使う点にある。シリコンインタポーザは、言ってみれば、トランジスタを持たない配線だけのチップで、通常の基板より微細な配線とThrough Silicon Via(TSV)技術によって、HBMのスタックとCPUやGPUを、スタック当たり1,024ピンという膨大な信号ピンで結ぶ。Radeon R9 Fury(Fiji)のように4個のスタックを使う場合は、信号ピンだけで4,096となるため、従来の基板では対応が難しい。

シリコンインタポーザを使う現在のHBMソリューション
現在のHBMのサプライチェーン

 HBMに関連して、コストの高いシリコンインタポーザを、より低コストな技術で代替する方法が研究されてきた。Intelが開発したパッケージ技術「Embedded Multi-die Interconnect Bridge(EMIB)」などのアプローチがそれだ。シリコンインタポーザから解放されれば、HBMのコストのある程度が低減される。シリコンインタポーザの代替が、近い将来に期待されるHBMのコスト低減策の1つだ。

IntelのHBMなどに応用可能なEMIB技術

 とは言え、現状ではHBM自体が、まだ高コストであり、HBMスタックへのアセンブリなどでもコストがかかる。

 「アセンブルの方法やテストの方法など、コストを下げることができる余地がある。また、DRAM自体のコストを下げなければならないことも明白だ。DRAMのコストを下げるには、まず、量産規模が必要だ。最初のHBM2のユーザーが必要とする数量は小さい。スーパーコンピュータや高速デバイスの市場で必要とされるDRAM個数は少ないからだ。

 だから、HBMをもっと大量のボリュームを必要とする市場に向けてプッシュして行く必要がある。最初はHPCや組み込み高速デバイスの市場だが、コンシューマ市場にも広げて行く。AMDは、それを常に考えている。また、JEDECも、常に、ボリュームのある市場を第1に考えてDRAMの規格を策定している」(AMD, Macri氏)。

 半導体製品の場合、生産ボリュームが増えると1ダイ当たりのコストが下がる。HBMについても、ミッドレンジのPCやコンシューマデバイスに普及しないと、普及とコストダウンのポジティブなスパイラルに入らない。そこに入れるかどうかがHBM2にかかっている。ミッドレンジPCのキャッシュとして浸透できるかどうかが、最初のステップとなりそうだ。

 ちなみに、IntelのeDRAMは、DRAMセルがロジックプロセスへの組み込みを前提としたMetal-Insulator-Metal(MIM)キャパシタを使っているため、セル自体が大きく、メモリ容量が小さい。チップ容量は最大1G-bit(128MB)で、メモリ帯域は102.4GB/sec。HBM2のスタックが2-Hiで2GB、256GB/secであることを考えるとどうしても不利になる。

2-Hi時にはチャネル当たりのメモリバンク数は半減

 前回の記事の訂正が1点ある。前回、4チャネル/ダイの2-Hiスタック構成時のHBMは、16バンク/チャネル構成と推測した。しかし、これは間違いで、4チャネル/ダイ時には8バンク/チャネルとなる。1チャネル当たりのDRAMバンク数は、2チャネル/ダイ時の16バンク/チャネルに対して半減する。しかし、半減しても、依然として1チャネル当たりのバンク数は8バンクあり、性能上は不利だが、致命的な低下を起こすほどではないと推測される。

HBM2のチャネル当たりメモリバンク数はGDDR5の2倍

 HBM2の技術詳細は、現在、米サンフランシスコで開催されている半導体学会「ISSCC(IEEE International Solid-State Circuits Conference)」で明らかにされる予定だ。その中に、2-Hiスタックの4チャネル/ダイアーキテクチャの詳細やECCアーキテクチャも含まれている。ECCは、以前の記事の時点から大きく変わった。

メモリバス幅のロードマップ
PDF版はこちら

 HBM2の特性をGDDR5と比較すると下のようになる。HBM2で目立つのは、チップ当たりのメモリ帯域。HBM2の場合、2-Hiスタックでのチップ当たり帯域は256GB/secとなる。これは、HBM1のチップ帯域64Gb/secの4倍で、GDDR5 7Gbpsのチップ帯域28GB/secの9倍以上。チップ当たりでは最高の帯域となる。これは、2-Hi時には、チップ当たり4チャネル、512-bit幅のインターフェイスとなるためだ。ちなみに、下のスライドの左側の図のピン当たり転送レートは間違えており、HBM2の転送レートは1Gbpsではなく2Gbpsだ。また、あまりフォーカスされないが、メモリアクセスレイテンシの低さもHBMの利点だ。

HBMの転送レートとチップ当たりメモリ帯域
メモリ帯域当たりの電力消費

(後藤 弘茂 (Hiroshige Goto)E-mail