後藤弘茂のWeekly海外ニュース

容量32GB・1.36TB/secのGPUメモリを実現する第2世代HBM2

転送レートをさらに引き上げる新バージョンのHBM2

 近い将来のハイエンドコンピューティングGPUやメニイコアプロセッサのメモリは、ピーク帯域が1TB/sec超に達し、容量は32GBがあたり前となり、帯域あたりの消費電力はさらに下がる。スタックドDRAM「HBM(High Bandwidth Memory)」の進化によって、ハイエンドのコンピューティングデバイスのメモリは、さらに一段進歩する。

 こうした「HBM2」メモリの進歩が、米サンフランシスコで2月に開催された半導体カンファレンス「ISSCC(IEEE International Solid-State Circuits Conference)」で示された。また、将来投入される次世代の「HBM3」では、さらにメモリ帯域が引き上げられ、電力が抑えられ、よりメインストリームのデバイスへの普及が期待されている。

 HBMメモリは、2015年に第1世代のHBMが市場に投入され、翌2016年には早くも第2世代のHBM2が市場導入された。最初のHBMは、ピンあたりの転送レートが1Gbpsで、メモリ帯域は1スタックあたり128GB/sec、ハイエンドGPUの4個のスタック構成で512GB/secだった。第1世代のHBMは、スタックあたりのメモリ容量が1GB(1ダイが2G-bitで4層スタック)と小さく、メモリ帯域もGDDR5を大きく引き離すことができなかった。そのため、採用は広まらず、すぐにHBM2へとバトンタッチした。

 HBM2は、スペック上は2Gbpsの転送レートで、1スタックのメモリ帯域は256GB/secで、4個のスタックの構成で1TB/secを達成するはずだった。また、積層するDRAMが8ダイへと増えることで、メモリ容量もスタックあたり8GB(1ダイが8G-bitで8層スタック)、4個のスタックで32GBに達するはずだった。

 しかし、GPUでのHBM2の最初の採用となったNVIDIAのPascal(パスカル)アーキテクチャGPU「Tesla P100」では、メモリの転送レートは1.43Gbpsでメモリ帯域は4スタックで732GB/sec、メモリ容量は16GBに留まった。転送レートの引き上げと、積層するDRAM数に制約があったためだ。

 2月のISSCCでは、HBMのパイオニアであるSK hynixが、第2世代のHBM2の概要を明らかにした(「12.3 A 1.2V 64Gb 341GB/s HBM2 Stacked DRAM with Spiral Point-to-Point TSV Structure and Improved Bank Group Data Control」J. H. Cho et. al,)。ポイントは、8個のDRAMダイを積層した場合でも、高い性能と品質を維持し、消費電力も抑える点にある。言い換えれば、HBM2の本来の広帯域と大容量を達成するためのHBM2を発表した。

SK hynixが発表した第2世代のHBM2メモリ
SK hynixの新しい第2世代HBM2
データ転送レートが上がったHBM2

新しいHBM2ではアーキテクチャを変更

 ISSCCでSK hynixが発表した第2世代HBM2は、転送レートが最大で2.66Gbps、メモリ帯域はスタックあたり最大で341GB/sec。ハイエンドGPUの4個のスタック構成では1.36TB/secと1TB/secを大きく越える。DRAMのダイあたり容量は第1世代HBM2と同じく8Gbits(ECCを含めると9Gbits)。DRAMダイを8層スタックするとスタックあたり8GB。ハイエンドGPUの4個のスタック構成では32GBのメモリ容量となる。

DRAMの帯域と転送レート
PDF版はこちら

 最初の世代のHBM2では、2Gbpsの転送レートと8層のスタック「8Hi」を実現することは難しかった。少なくとも、8Hi容量で2Gbpsの転送レートには困難があった。そのおもな原因は、シリコン貫通ビア(TSV:Through Silicon Via)により増える容量性負荷が重いためだったという。そのため、SK hynixは、新しいHBM2では、DRAM内部のアーキテクチャを変更して、TSV接続のトポロジを変更した。

 HBMアーキテクチャでは、DRAMのダイを積層し、TSVによってダイ間を配線する。ダイ同士をTSVとマイクロバンプで直結することで、超幅広インターフェイスを実現する。HBMでは、128-bit幅のメモリチャネルを8チャネル一組で取り扱う。128-bit x 8Channel=1,024-bitで、1,024-bitのメモリバス幅となる。

 この広メモリバスを、中速で駆動することで、超広帯域を実現する。ボトムにはインターフェイスを制御するベースロジックダイがあり、その上にDRAMを積層する。HBM系アーキテクチャでは、各メモリダイを、8チャネルの1,024-bitの信号TSVが貫いている。

HBM系メモリの断面図
PDF版はこちら

 SK hynixのHBM2は、TSV接続の信号線についてはマルチドロップとなっていたという。各チャネルにつき、積層された各DRAMダイごとにドロップがあり、TX(Transmitter:送信)/RX(Reciever:受信)がダイごとに配置されていた。下のスライドは、HBM2の8チャネルのTSV接続のうち半分の4チャネル分のTSVを示している。HBM2のDRAMダイのメモリバンク群の半分に対するインターフェイスだ。スライドの左が従来のマルチドロップの構成、右が新しいポイントツーポイント接続の構成だ。

左が旧HBM2のマルチドロップアーキテクチャ、右が新しいHBM2のスパイラルポイントツーポイント

HBMスタックの接続をマルチドロップからポイントツーポイントに

 従来のSK hynix HBM2では、各チャネルのTSVにそれぞれTX/RXがあり、4組のTX/RXに対して4対1のMUX(Multiplexer)がある。このように、それぞれのチャネルごとに、4層のスタック「4Hi」ならDRAM側だけで4個のドロップ、8Hiなら8個のドロップとなっていた。スライドは8層の例だ。

 そこでSK hynixは、トポロジを完全に切り替えた。新しいHBM2では、ベースロジックダイと各DRAMダイの間をポイントツーポイント(P2P)で接続する。各チャネルにつき、ベースダイに対して1ランクに1ドロップ、1組のTX/RXだけが接続されている。HBMの場合は、4層の4Hiまでが1ランク、8層の8Hiの場合は2ランクとなる。そのため、8Hiでは、1チャネルにDRAM側が2ドロップとなる。

 SK hynixでは、新しいHBM2での接続方式を「Spiral Point-to-Point(Spiral P2P:スパイラルP2P)」と呼んでいる。上のスライドのように、スパイラルでTX/RXに接続されるTSVがダイごとに切り替わって行くからだ。HBM2のダイ上に8チャネル分のTSVが空けられていることは今回も変わらない。しかし、TX/RXに接続されるチャネルは、そのうち2チャネル分で、残りのTSVは上下のダイ間接続だけに使われると見られる。

 SK hynixは実装の詳細は明らかにしていないが、このアーキテクチャの結果、まず、各チャネルごとのドロップは1ランクに1組のTX/RXとなった。8Hiの場合は、2ランクのDRAMダイとベースダイでチャネル上に3組のTX/RXだ。ポイントツーポイント接続となり、4対1のMUXもなくなった。結果として新HBM2では、ドライブ電流を30%低減、また、信号波形ひずみも改善され、スルーレイト(slew rate)が上がった。

トポロジの改善でキャパシティブロードが大幅に低減

ダイ当たりのチャネル構成が大きく変わった

 SK hynixのこの新しいポイントツーポイント接続には、TSVとTX/RXの接続はどうなっているのか、といった疑問もあるが、それ以前に、もっと根本的なHBM2のアーキテクチャチェンジを示している。

 下はSK hynixのHBM2のチャネル/ダイ構成の図だ。SK hynixの第1世代のHBM2は、1個のダイが最大4チャネル構成となっていた。そのため、4ダイの4Hiの場合は、各チャネルは2つのダイに分かれてメモリバンク群が配置されている。SK hynixがこのアーキテクチャを取った理由は、2個のダイだけを積層する「2Hi」構成を可能とするためだった。

SK hynixのHBM2のチャネル/ダイ構成
PDF版はこちら
HBM2でのスタックと容量の関係
PDF版はこちら

 SK hynixの第1世代のHBM2アーキテクチャの場合、2Hiの場合でも、各ダイが4チャネルずつ、2ダイで8チャネルでHBM2のフル帯域を利用できる。2Hiから4Hi、8Hiまでのスケーラビリティを持っていた。この場合、4Hi/8Hiと2Hiの切り替えをアーキテクチャに組み込む必要がある。そのためのTSV接続のトポロジーはマルチドロップが適していたと推測される。その反面、8Hiでの負荷への対策は弱かった。

第1世代のHBM2ではダイあたり4チャネルで4Hiと8Hiだけでなく2Hiもサポートしていた

 それに対して、今回の新HBM2アーキテクチャでは、各ダイが2チャネルとなっている。SK hynixは、前回は4チャネル/ダイだったが、今回は2チャネル/ダイと説明している。各ダイにつき2チャネル固定なら、今回SK hynixが採ったようなスパイラルP2Pアーキテクチャを採用することも容易になる。

 今回のSK hynixのHBM2アーキテクチャ変更の背景には、こうした抜本的なHBM2のメモリとしての方向のシフトがあると見られる。それは、小容量用途のカバーをやめて、大容量用途にフォーカスするという動きだ。これは、今後のスタックドDRAMの方向性も示唆している。

性能向上と電力削減を実現する第2世代HBM2の仕組み

 SK hynixの新HBM2には、このほかにもさまざまな性能向上や電力低減、歩留まり向上の工夫が盛り込まれている。HBMの大きなチャレンジは、TSVとマイクロバンプの歩留まりだ。8Hiの場合、1つのダイ上のTSVの欠陥は、8個のDRAMダイすべてに影響する。

 そのため、SK hynixでは、TSVリペアテクニックを実装している。SK hynixは2014年のVLSI Symposiaで、HBM1でのTSVリペアの技術発表(「C4.2 An Exact Measurement and Repair Circuit of TSV Connections for 128GBs High-Bandwidth Memory(HBM) Stacked DRAM」D. U. Lee et. al, IEEE Symp. VLSI Circuits, 2014.)を行なっている。今回の実装は、完全に自動化されており、ブートアップ時にテストとリペア生成が行なわれる。

TSVの欠陥を見つけ出す

 HBM2は8チャネルのメモリチャネルそれぞれを、さらに2つのスードチャネル(pseudo-channel)に分割する機能を備えている。128-bit I/Oラインが、64-bitずつ分割されて独立したチャネルのようにアクセスができる。各チャネルの32バンクが16バンクずつスードチャネルに割り当てられる。

 スードチャネルアクセスでは、プリフェッチ(メモリセルからの読み出し粒度)スペックは4nプリフェッチ。今回のHBM2では、バンクグループを使うことで、2nプリフェッチに変えた。バンクグループで左右のバンク列にアクセスを振り分け、それぞれからの2nプリフェッチで4nプリフェッチのデータアウトにする。これによって、タイミングマージンが緩められ、エリアオーバーヘッドも低減された。

HBMのスードチャネルモード
バンクグルーピングをスードチャネルに導入

 SK hynixの従来のHBM2はダイ中央がTSVエリアとなっており、信号と電力の両方のTSVアレイが集中していた。今回の新HBM2では、SK hynixはバンクの間に電力だけのTSVを設置、より安定した電力供給を可能にした。このほか、ダイ上の温度センサーからのデータの伝送も効率化した。

新たにメモリバンク間に電源TSVが配置された
バンクパワーTSVによって電力供給が大きく安定した

 SK hynixの第2世代HBM2は、前世代と同じ20nmプロセスで製造、ダイサイズは81.8平方mm。DRAMのスタック数は8Hiだけが記されているが、ほかのスライドでは4Hiも記されており、8Hiと4Hiの2種類のランク構成。チップのメモリ容量は8G-bitでECC用の1G-bitも搭載されており、物理的には合計で9G-bitとなる。

SK hynixの第2世代HBM2のスペック