後藤弘茂のWeekly海外ニュース

TSV技術で積層するGDDR5後継メモリ「HBM」の詳細

メモリ帯域がボトルネックとなったプロセッサ

 高性能プロセッサではメモリ帯域がボトルネックとなり、次世代の高性能DRAM「HBM(High Bandwidth Memory)」へと急送に傾きつつある。HBMは、JEDEC(半導体の標準化団体)が規格化したメモリで、GDDR5の後継の広帯域メモリとなる。2014年後半には、まずSK hynixから量産が始まり、2015年には最初の搭載製品が登場すると見られている。高性能のビデオカードカード、HPC(High Performance Computing)向けのGPUやスループットプロセッサのメモリ、サーバーCPUのキャッシュ、GPUコア内蔵CPUのメモリ、ネットワークプロセッサ向けメモリなどの用途が想定されている。

HBMのスペック
DRAM技術動(PDF版はこちら)
SK hynixのHBMの展示

 汎用の広帯域DRAMは、長い間、GDDR5技術を使ってきた。GDDR5は、従来のDDR系メモリの延長にあるDRAM技術で、高速化の限界が近づいている。現在の技術上の最高転送レートは7.2Gtps~8Gtps程度で、一般的な製品では5Gtps台の転送レートのチップが使われている。

 GDDR5の進歩が止まっているために、ハイエンドGPUやHPC向けGPU/スループットプロセッサ(Xeon Phiなど)はメモリ帯域の広帯域化が鈍化している。一方で、ロジックチップ側の搭載できる演算ユニット数は増大し続けているため、Bytes/FLOPS比率(メモリアクセス/演算)はどんどん減少の一途を辿っている。そのため、メモリバインド(メモリが制約となる)アプリケーションの性能は、生演算性能が上がっても頭打ちとなっている。

 メモリ帯域の拡張が難しい理由の1つは、メモリ帯域を広げても消費電力を増やすことができない点にある。DRAMとDRAMインターフェイスは、GPUシステムの中で最も電力を消費する部分になっている。そのため、ポストGDDR5の広帯域メモリでは、帯域当たりの消費電力を大幅に引き下げることも重要な課題となっている。こうしたニーズから広帯域かつ低消費電力のHBMのプランは浮上した。

帯域改善は広くて遅い、狭くて速いの2方向
TSVが次世代メモリ技術になるというSK hynixのスライド

2.5DソリューションにフォーカスしたHBM

 HBMはThrough Silicon Via(TSV)技術によるダイスタッキングを前提としたメモリ規格だ。似たようなTSVベースのワイドなI/O DRAM技術であるWide I/O2との大きな違いは、Wide I/O2がモバイル向けで低電力にフォーカスしているのに対して、HBMは高性能コンピュータ向けで広帯域にフォーカスしている点だ。また、Wide I/O2はどちらかと言えば「3D」スタッキングを主眼にしているのに対して、HBMは「2.5D」スタッキングにフォーカスしているという違いがある。

Wide I/O2とHBMの比較

 TSV技術によってDRAMとGPUやCPU/SoCを直接続してしまうのが3Dダイレクトスタッキング。それに対して、シリコンインタポーザまたはTSVインタポーザを使って接続する方法が2.5Dスタッキングだ。3Dスタッキングでは、GPU/CPU/SoCのロジックチップ側にもTSVで穴を空ける必要がある。それに対して、2.5Dなら、ロジックチップ側にはTSVの穴を開けなくて済むため、CPUやGPUのメーカーが適用しやすい。

3Dと2.5Dのインタポーザ(PDF版はこちら)
3Dと2.5Dのダイスタッキング技術

 シリコンインタポーザは、上の図のようにTSVによるViaが開けられ配線されたシリコンチップだ。インタポーザ上に、CPUやGPUなどのロジックチップとDRAMチップを載せる。どちらも、インタポーザとはマイクロバンプで接続する。DRAMをスタックする場合はTSVでスタックする。インタポーザ自体は通常のバンプでPCBに接続する。

 HBMが2.5Dにフォーカスする理由は2つある。1つは排熱の問題で、電力消費の大きい高性能GPU/CPU/SoCの熱を、熱に弱いDRAMを通して排熱することが難しい点。しかし、それ以上に大きいのはプロセス技術面の問題だ。先端プロセス技術は、立ち上げてからTSVが利用可能になるまでかなり時間がかかる。あるJEDEC関係者は次のように語る。

 「さまざまなテストを行なう時間も考慮すると、先端プロセスでTSVが使えるようになるまで、18~20カ月かかるだろう。すると、次の世代のプロセス技術がもう立ち上がり始める時期になる。そうなると、チップベンダーーにとっては、TSVを使った1世代古いプロセス技術を使うか、TSVを使わない新しいプロセス技術を使うか、という選択肢となる。GPUなどのメーカーは、トランジスタジャンキーなので、(搭載できるトランジスタ数が減る)古いプロセス技術という選択はありえない。だから、TSVインタポーザを使わなければならない」。

 今回、SK hynixが発表したHBMは、2.5Dのインタポーザ接続に最適化した仕様となっている。

SK hynixのHBMスペック

ピン当たり転送レートは1~2Gtps

 HBMのデータバスは1,024-bit(x1024)で、ピン当たり転送レートは1Gtps~2Gtps。HBMスタック当たりのメモリ帯域は128GB/sec(1Gtps時)~256GB/sec(2Gtps時)となる。また、あるJEDEC関係者はHBMの世代で最大3Gtpsまで達成できると予測しており、その場合はx1024でのメモリ帯域は最大で384GB/secとなる。しかし、量産ベースでこのスペックを達成できるかどうかは分からず、256GB/sec(2Gtps時)が上限と見なした方がよさそうだ。

JEDECメモリの帯域とインターフェイス(PDF版はこちら)
DDR4、Wide I/O、GDDR5、HBMの比較
DRAM帯域のロードマップ(PDF版はこちら)

 HBMスタックは1Gtps時でも、GDDR5のチップ単体と比べると帯域は5倍近い。また、4個のHBMスタックをGPU/CPUに接続する場合は、GPUのメモリ帯域は1Gtps時に512GB/sec、2Gtps時に1TB/secとなる。GDDR5で最大の512-bit(x512)インターフェイス構成の場合と比べると、1Gtps時に同等、2Gtps時に2倍のシステム帯域となる。

 SK hynixの場合は第1世代の2G-bit HBMで1Gtps、第2世代の8G-bit HBMで1.6~2Gtpsの転送レートを予定している。つまり、2015年と予想されている最初の世代のHBM搭載GPUは1スタックなら128GB/secで4スタックなら512GB/secとなる。2016年にはそれが1スタックなら256GB/secで4スタックなら1TB/secになる計算だ。

SK hynixのTSV製品ロードマップ

 SK hynixの現在のシリコンでのShmoo(シュムー)プロット(電圧と動作周波数の相関、元ネタは架空の家畜)では、定格1.2Vの電源電圧時に1Gtpsをパスしている。現状の29nmプロセスでは1Gtps以上のヘッドルームがそれほどあるわけではない。電力面でのHBMの利点は明瞭で、GDDR5に対しては3倍の性能/電力効率となる。

Shmooプロットでは電圧1.2Vで1Gtps
電力当たりの帯域に優れる

各チャネル8バンク構成のHBM DRAMダイ

 HBMのメモリスタックは、基本は4個のDRAMを積層する。現在のSK hynixの仕様では、4スタック以上でなければ最大帯域は得られない。SK hynixでは8-HiスタックのHBMも計画している。こちらは2ランク(1チャネルに2ダイ)となる予定だ。

 HBMではTSVエリアはダイの中央部分に配置されている。TSVによって4層の各DRAMダイに、信号と電力を供給している。128-bitインターフェイスのメモリチャネルを8チャネル、1,024-bitのI/Oを、TSVによって4層のダイを通して配線している。SK hynixのHBMは、1個のダイに2メモリチャネルを備える構成となっている。SK hynixの4-Hiスタックの場合は、各チャネルは、ベースロジックダイまたはホストコントローラと1対1で接続している。各チャネルはピア・ツー・ピア接続で、他のチャネルとは分離されている。

HBMのbit幅(PDF版はこちら)
レイアウトと顕微鏡写真

 各チャネルは、それぞれ128 I/Oなので1ダイ(半導体本体)につき256-bit(x256)のI/Oとなる。各チャネルにつき、2G-bitのメモリ容量で、独立した8メモリバンク(16サブバンク)で構成される。SK hynixの2G-bit品の場合は各ダイにつき16バンク構成となる。4枚のDRAMダイを使う4-Hiスタック構成の場合は、HBMスタック全体で64バンクとなる。今回の2G-bit品の場合は1バンクにつき128M-bit容量となる。また、各バンクは2個のサブバンク(64M-bit)に分離されている。

SK hynixのHBMの構造
8メモリバンク(16サブバンク)の構成

 HBMのメモリセルアレイアクセスは2-bitずつ読み出す「2n-Prefetch」。各チャネルは128-bitアクセスなので、メモリアクセスのミニマム粒度は256-bit(32-byte)となる。x128の各メモリチャネルは、1個のAWORD (Address Buffer)と4つのチャネルインターリーブドDWORD (Data Buffer)を備える。各TSV DWORDにつき32-bitずつのI/Oとなっている。

 コマンドインターフェイスは半独立となっており、RASとCASのコマンドを並列に発行することができる。シングルバンクリフレッシュをサポートしており、各バンク毎にリフレッシュが制御される。リフレッシュ動作中でないバンクにはアクセスできる。リフレッシュ動作は全てのバンクにアクセスできないといったインターフェイスのアイドル状態はない。

コマンドインターフェイス

2.5D向けに開発されたベースロジックダイ

 HBMスタックのボトムに配置されたベースロジックダイは、GPU/CPU/SoC側のDRAMコントローラとHBMダイの間に挟まる。JEDECの仕様では、ベースロジックダイはDRAMベンダーが選択できるオプションとなっている。つまり、HBMではロジックダイを使ってもいいし、使わなくてもいい。ただし、現実的な実装としては、2.5Dのスタックではロジックダイが必要だとSK hynixは3月のGPU Technology Conference(GTC)時に説明している。

ダイを繋ぐインターフェイス

 SK hynixの場合はロジックダイは、さまざまな機能を実装している。HBMの仕様では、ロジックダイに実装する機能は明示的には規定しておらず、DRAMベンダーに委ねられている。SK hynixでは、ロジックダイにテスト機能やメモリセルリペア機能、PHY/I/Oパッド位置の再配置などの機能を実装している。SK hynixはロジックダイにこうした機能を実装した理由として、HBM特有の問題を解決するためだったとISSCCで説明している。

ベースロジックを使うのが現実解
ベースロジックダイの機能

 HBM自体のTSVホールとマイクロバンプはダイの中央に配置されている。しかし、最下層のロジックダイでは、ホストコントローラとのHBMインターフェイスのマイクロバンプはダイのエッジに配置されており、PHY(物理層)もそこに配置されている。これは、HBMスタック側のPHYと、GPU/CPU/SoC側のPHYとの間の配線距離を最短にするための工夫だという。コントローラ側のチップのPHYも、同様にチップのエッジにDRAMスタックと相対するように配置されることを想定しているようだ。そのため、GPU/CPU/SoCとHBMスタックとの配線は最短になりPHY間は近接する。

ロジックダイを使うHBMソリューション(PDF版はこちら)

 HBMスタックのロジックダイとGPU/CPU/SoCは、インタポーザに載せられる。現状ではTSV技術を使ったTSVシリコンインタポーザを使っている。問題は、1,408もの信号線でのインタポーザ経由のアクセスは、キャパシタンスや抵抗が大きいことだという。ベースダイを使うことで、配線長を抑えてPHY同士を近接させ、I/Oキャパシタンスを減らし、インターフェイスの電力消費を最小に抑えるという。

 テスト機能ではI/Oとメモリセルの両方のテスト機能をロジックダイに入れ込んだ。TSVダイスタッキングのHBMではテスト機能が非常に重要となる。多数のダイをアセンブリしたスタックの歩留まりを高く保つ必要があるからだ。TSVスタックの大きな課題である良品ダイ(KGD:Known Good Die)の検査はスタックにアセンブリする前に行なうが、アセンブリ後にも多くのテストやトレーニング/キャリブレーションが必要になる。

 HBMでは信号だけで1,408ものマイクロバンプがあるため、SK hynixはそれらのインピーダンスモニタリングの回路も実装したという。また、SK hynixのHBMでは、メモリセルのテストとリペア機能もベースロジックダイに実装されている。HBMのスペックでは「MBIST(Memory-Built-In-Self-Test)」の実装が必須となっている。

 2.5D接続の場合は、TSVインタポーザが現状では必須となっている。GPU Technology ConferenceでSK hynixは、有機素材パッケージでの配線も研究しているが現状では提供できないと説明していた。ロジックチップとGPU/CPU/SoCをTSVインタポーザ上に配置して配線する構成となっている。こうした構成であるため、現状のHBMには、ベースロジックダイとTSVインタポーザのコストが加わり、相対的に高コストなソリューションとなっている。

(後藤 弘茂 (Hiroshige Goto)E-mail