後藤弘茂のWeekly海外ニュース

1TB/secを実現する次世代GPU向けメモリ「HBM DRAM」がいよいよ量産段階へ

HBM DRAMがいよいよ量産フェイズに入る

 次世代ハイパフォーマンスDRAM「HBM DRAM」が、いよいよ秒読み段階に入った。1TB/secの超広帯域メモリを目指す積層DRAM規格がHBM(High Bandwidth Memory) DRAMだ。JEDEC(半導体の標準化団体)での規格化作業が済み、現在はSK hynixがサンプルを出荷し始めている。2014年後半には量産が始まり、2015年には最初の搭載製品が登場すると見られている。

HBMのスペック

 HBMは、シリコン貫通ビア(TSV:Through Silicon Via)技術によるダイスタッキング(積層)型のDRAM技術だ。同じくTSVを使うモバイル向けのWide I/O系とは異なり、GPUやCPUに直接DRAMを積層するよりも、どちらかと言えばインタポーザを使って接続することにフォーカスしている(HBM DRAM自体はCPUやGPUに直接積層もできる)。インターフェイス幅は1,024-bit(x1024)でメモリ帯域は最初の世代で1スタック128GB/sec、第2世代で256GB/sec。4個のHBMスタックを使うシステムなら512GB/sec〜1TB/secのメモリ帯域を実現できる。

シリコンダイ(半導体本体)を直接積層できるTSV技術
2つのダイスタッキング技術

 DRAM業界では、HBM DRAMを広帯域のGDDR5の後継にしようとしている。HBM DRAMはビデオカード、HPC(High Performance Computing)向けのGPUやスループットプロセッサのメモリ、サーバーCPUのキャッシュ、ネットワークプロセッサ向けメモリなどの用途が想定されている。

Wide I/O2とHBMの比較

 HBMはGDDR5に対して、より広帯域というだけでなく、低消費電力(約3倍のパフォーマンス/電力)の強味も持つ。PHYの電力消費がGDDR5と比べて圧倒的に少ないためで、4個のスタックのHBM DRAMを1Gtpsで駆動しても電力は30W以下なのに対して、GDDR5で同帯域を実現しようとすると電力は80W以上になってしまう。

HBMは電力当たりの帯域に優れる

 しかし、現在発表されているHBMの実装には、高コストという問題もある。DRAMをTSVでスタックするだけでなく、ボトムロジックダイとシリコンインタポーザを使う仕様となっているからだ。また、フルの帯域を得るためには、DRAMチップを4層に積層しなければならず、メモリ量の粒度が大きい。

 そのため、高価格帯の製品のメモリには適用できても、現在のGDDR5の全ての価格帯を置き換えることができるかどうかには疑問がある。ちなみに、GDDR5系メモリ技術の方は、メモリモジュールに対応した新規格「GDDR5M」へと派生しつつある。全体の流れでは、メモリ技術は多様化の時代に向かっているように見える。

DRAM技術動向(PDF版はこちら)

AMDとNVIDIAのどちらもスタックドDRAMへと傾倒

 HBMについては、現在、JEDECから規格「JESD235」が発表されており、SK hynixが2014年2月の半導体カンファレンスISSCC(IEEE International Solid-State Circuits Conference)で、実際のシリコンの成果を発表している。SK hynixのHBMはJEDEC規格に準拠したものだが、JEDECの規格自体は比較的柔軟に策定されており、SK hynixが発表した仕様以外の実装も可能となっている。

SK hynixが発表したHBM

 SK hynixは4月に中国の深センで開催されたIntelの技術カンファレンス「Intel Developer Forum(IDF) shenzhen 2014」で、HBMの製品計画も発表している。現在の予定では、2014年中盤までに最初の2G-bitチップ製品の生産を開始。2016年にはさらに大容量で高速な第2世代の8G-bitチップを生産する計画となっている。SK hynixは3月のGPU Technology Conference(GTC)でも、2G-bit HBMのウェハを展示していた。

GTCでのHBMウェハの展示
SK hynixのTSV製品ロードマップ
SK hynixのHBMスペック。第2世代は容量/帯域を向上

 HBM搭載製品では、NVIDIAがHBMと見られる3D DRAMを載せた次世代GPU「Pascal(パスカル)」の計画をGTCで発表している。また、AMDもHBMのGPU搭載に向けて積極的に動いており、そもそもHBMの規格を策定しているJEDECのDRAM規格策定サブコミッティ(JC-42.3 Subcommittee)のチェアマンはAMDのJoe Macri氏(Corporate VP & Product CTO of AMD Global Business Unit)だ。また、AMDは2013年12月のCPUカンファレンス「Micro46(International Symposium on Microarchitecture 46)」でも、HBMを含めたダイスタッキングに関するキーノートスピーチを行なっている。ちなみに、Micro46でキーノートスピーチを行なったAMDのBryan Black氏(Senior AMD Fellow)は、元Intelで話題となったCPUを分割してTSV接続する論文(「Design and Fabrication of 3D Microprocessors」など)を発表した人物だ。TSV技術の応用のキーパーソンが、IntelからAMDへと移籍している。

NVIDIAのPascalのメカニカルサンプル
AMDのBryan Black氏が、Intel時代の2006年にMicro39で発表したTSV CPU

HBMのバックボーンとなるTSV技術

 GPUやGPUコアを統合したCPU/SoC(System on a Chip)あるいはネットワークプロセッサは、演算性能をプロセス世代毎に倍増させている。そのため、現在のプロセッサはメモリ帯域が障壁となり、パフォーマンスを発揮できない状態に陥りつつある。従来のソリューションでは、メモリインターフェイスを高転送レートにし、インターフェイス幅を広くすることでメモリ帯域を引き上げてきた。ところが、消費電力がシステム設計の大きな問題になって来たことで、メモリとメモリインターフェイスが消費する電力を増やすことが難しくなってしまった。

 そのため、現在では“広くて遅い”メモリか、“狭くて速い”メモリの2方向にメモリの進化の方向が限られつつある。後者の狭くて速いメモリでは、電圧振幅の狭いインターフェイス技術を使い、高転送レートだが電力の消費が少ないメモリを作る。前者の広くて遅いメモリでは、超幅広メモリインターフェイスを比較的低い転送レートで駆動することで、電力効率の高いメモリを作る。DRAM業界は、現在は狭くて速い方向ではなく、広くて遅いメモリに利があると見て向かっており、HBMはその代表格だ。HBMはTSV技術を使うことで、現在のDRAMの抱える諸々の問題の解決を狙う。

帯域改善は広くて遅い、狭くて速いの2方向
将来のDRAMの方向性(PDFはこちら)
TSVが次世代メモリ技術になるというSK hynixのスライド

 通常のシリコンチップは、ダイの片面にしか接続用端子を設けることができない。そのため、従来のダイスタッキングでは、重ねたダイの端子間を細いワイヤーで結ぶワイヤーボンディング配線が使われてきた。それに対してTSVでは、ダイのシリコン基板を貫通した穴で、ダイの背面にも端子を配置する。そのため、TSVを使うとダイ同士を直接続できる。

TSVの利点(PDF版はこちら)
TSVの基本構造(PDF版はこちら)

 従来のボード上の配線やワイヤーボンディングによる配線では、チップ間の配線数は限られていた。しかし、TSVでは、積層したダイの間を数千もの端子で接続することができる。従来のDRAMチップの数倍から数十倍のインターフェイス幅を実現できるため、比較的遅い転送レートでも超広帯域メモリを実現できる。

 JEDECでは、TSVを次世代DRAM技術の要と位置付け、TSVを前提としたDRAM技術としてモバイル向けのWide I/O、Wide I/O2とハイパフォーマンス向けのHBMの2規格を策定して来た。また、DDR4もモジュール上ではTSV積層を行なう。また、Micron Technologyが主導するTSVベースのスタックDRAM「Hybrid Memory Cube(HMC)」もある。DRAMはTSVへ向けて大きく動いている。TSV自体はDRAMインターフェイスだけでなく、多岐に渡る応用が予想されている。しかし、現在、量産可能なTSV直径で適用しやすいのはI/Oパッド分野で、Black氏の論文にあったようなCPU内部の配線にTSVを使うといった応用はまだ先の話だ。

TSV技術の直径による比較

1スタックで128〜256GB/secのメモリ帯域

 HBM DRAMでのメモリインターフェイスは1,024-bit(x1024)。これを1〜2Gtpsの転送レートで駆動する。そのため、x1024でのメモリ帯域は128GB/sec(1,024Gtps)〜256GB/sec(2,048Gtps)となる。また、あるJEDEC関係者はHBMの世代で最大3Gtpsまで達成できると予測しており、その場合はx1024でのメモリ帯域は最大で384GB/sec(3,072Gtps)となる。

 HBM DRAMはDRAMダイをTSVでスタック(積層)するが、CPUやGPUは複数個のHBMスタックを配することもできる。例えば、4スタックをGPU/CPUに接続する場合は、GPUのメモリ帯域は1Gtps時に512GB/sec、2Gtps時に1TB/secとなる。その場合、GPU全体でのメモリインターフェイスのデータバス幅は4,096-bitにもなる。現在のGDDR5のメモリ帯域は、現実的なレベルでは300GB/sec台なので、4スタックのHBM DRAMなら計算上は2Gtps時にGDDR5の3倍のメモリ帯域を実現できることになる。

DRAM帯域のロードマップ(PDF版はこちら)
1TB/secメモリ帯域を示唆するNVIDIAのスライド

 HBM DRAMでは1,024-bitのDRAMインターフェイスを、8チャネルに分割して使う。各チャネルはそれぞれ128-bit(x128)のインターフェイス幅で、チャネルは完全に独立して動作し、チャネル毎に異なるDRAMバンクグループにアクセスする。DRAMメモリバンクはチャネル毎に完全に分割されており、あるチャネルが、他のチャネルがアクセスできるDRAMバンクにアクセスすることはできない。従来のメモリチャネルを8チャネル束ねたような仕様となっている。

 HBM DRAMのDRAMセルプリフェッチは2 Prefetch(2ビットずつ読み出す)なので、128-bitインターフェイスでのメモリアクセス粒度は256-bit(32-byte)となる。HBM DRAMのメモリアクセス粒度が256-byteという記述がされている場合があるが、正しくは32-byteだ。

メモリアクセス粒度は32Byte

 現在のSK hynixのHBM DRAMの場合、1024-bitのDRAMインターフェイスは下のように各ダイに分割されている。SK hynixの実装では、2つのチャネルが1個のダイにアクセスする。各ダイにつき2チャネルで、4枚のダイを積層することで8チャネルのフルアクセスが可能になる。つまり、1ダイだけなら2チャネルで、メモリ帯域は1Gtps時に32GB/secになってしまう。ダイを積層すればするほどメモリ帯域が上がる、逆を言えば、積層しないとメモリ帯域が得られない。

HBMのbit幅(PDF版はこちら)

 現在予定されているHBM DRAMは、いずれもSK hynixと同じ2チャネル/ダイの仕様だという。ただし、JEDECのHBM DRAMのスペックでは、実はダイ当たりのチャネル数は限定されていない。DRAMベンダーの選択肢として1個のダイにより多くのチャネルを割り当てる、例えば4チャネルや8チャネルのダイを作ることもできる。あるいは、その逆に、1チャネル/ダイや1チャネルを複数のダイに分散する(その場合はレイテンシは均質であることが求められる)ことも許されている。実装上の自由度が高いのがHBM DRAM規格の特徴で、規格化は独立動作するチャネル単位で決められている。

 簡単に言えば、HBM DRAMの場合はスタックの外側からの動作が規格に沿っている限り、スタックの内部はDRAMベンダがある程度自由にできる。SK hynixではDRAMスタックの下にベースロジックダイを置いているが、これもスペック上はオプショナルで、ロジックダイを使わない仕様も可能だ。HMCと異なり、DRAMとロジックダイのどちらも外部からのインターフェイスは同一だ。しかし、現実解として、当面のHBM DRAM製品は2チャネル/ダイでロジックダイを使う実装になるという。

ロジックダイを使うHBMソリューション(PDF版はこちら)
SK hynixのHBMの構造
ベースロジックを使うのが現実解

単体チップのメモリ帯域でも最高のHBM DRAM

 HBM DRAMのインターフェイスを他のJEDEC系DRAMと比較すると、その特徴がますます明瞭となる。PC&サーバーのメインメモリ向けDRAMではインターフェイスは4/8/16-bit(x4/x8/x16)のレンジで、GDDR5では16または32-bit(同一チップで切り替え可能)となる。モバイル向けのスタックDRAMのWide I/O2になると、チャネル構成はHBM DRAMと同じ最大8チャネル(4チャネルの仕様もある)で、各チャネルが64-bit(x64)で合計512-bit(x512)となる。HBM DRAMがインターフェイス幅は最も広く、1,024-bitとなる。

JEDECメモリのbit幅比較(PDF版はこちら)
DDR3、GDDR5、HBMの比較

 これらJEDEC DRAMのインターフェイス幅と最大転送レート、最大メモリ帯域の関係を見ると下の図のようになる。HBM DRAMはスタック当たりのインターフェイス幅と帯域で、他のDRAMはチップ当たりのインターフェイス幅と帯域となっている。この図を見ると、HBM DRAMのスタック当たりの帯域が飛び抜けていることがわかる。ダイ当たりの帯域で見ても、HBM DRAMに迫るのはWide I/O2だけだ。

JEDECメモリの帯域とインターフェイス(PDF版はこちら)
DDR4、Wide I/O、GDDR5、HBMの比較

(後藤 弘茂 (Hiroshige Goto) E-mail