後藤弘茂のWeekly海外ニュース

テラバイト帯域の次世代メモリHBMが2015年に登場

（2013/4/12 00:00）

2.5Dソリューションを前提としたHBM規格

　TB/secクラスの超広帯域メモリを実現する新メモリ規格「HBM(High Bandwidth Memory)」が、いよいよ見えてきた。HBMについては、すでにスペックの策定作業が終わり、プロトタイプ試作チップによるスペックの検証作業に入ったという。製品の提供時期は2015年頃になりそうだ。ワンチップで128GB/secから256GB/secのメモリ帯域を実現するHBMによって、GPUや一部のCPUのメモリ帯域は一段上がる。しかし、当面はHBMは、やや割高なソリューションに留まりGDDR5と併存するだろう。

　HBMはJEDECで策定中の次世代メモリ規格で、特長は1,024-bitと非常に幅の広いインターフェイスで、広帯域のメモリ帯域を実現すること。マイクロバンプとシリコン貫通ビア(TSV:Through Silicon Via)によるDRAMダイのスタックを前提とした規格だ。電力消費も従来のGDDR5よりも引き下げる。

HBMのシステムアーキテクチャ
PDF版はこちら

HBM実現の手法

HBMの利点

　よく似たJEDEC規格であるWide I/O系との違いは、インターフェイス幅と転送レートとTSVインタポーザへの対応。Wide I/Oのインターフェイスは512-bitで4チャネルに分割しているが、HBMは倍の1,024-bitで8チャネルとなっている。ピン当たり転送レートはHBMが1T～2Tbpsと、第1世代Wide I/O(最高266Mbps)より5～8倍高速だ。Wide I/O系は、TSVによるロジックチップへの3Dスタッキングをメインに考えて規格化をスタートしたが、HBMはTSVインタポーザによる2.5Dソリューションを前提としている。また、モバイル向けのWide I/O系が省電力にフォーカスしているのに対して、グラフィックス&ネットワーク&パフォーマンスシステム向けのHBMは、電力効率を追求するものの広帯域にフォーカスしている。

　HBMは2011年3月からワーキンググループが活動を始めており、当初はウルトラWide I/Oといった名称でも呼ばれていた。昨年(2012年)からインターフェイス部分のプロトタイプを制作して接続性などの検証を行なってきたという。先月(2013年3月)末からは、メモリチップのプロトタイプがFabから出てラボに搬入されたため、実チップによる検証に入ったところだという。メモリとコントローラのプロトタイプチップによるさまざまなテストを経て、最終的な仕様へと修正し、量産へと持って行く。現在のプロトタイプチップは低容量だが、製品版では容量はGDDR5並になると見られる。

　市場への製品導入はスケジュールが正式に発表されたわけではないが「まだ多くのチャレンジが残されているものの、(HBM搭載製品の投入が)2015年ならわりと安全なスケジュールだろう」とあるJEDEC関係者は言う。アグレッシブなスケジュールもありえるが、現実解は2015年と見た方がよさそうだ。

1,024-bitのインターフェイスを8チャネルに分割

　HBMは1,024-bitインターフェイスを8チャネルに分割しており、各128-bitのチャネルが8並列で動作するインターフェイスとなっていると見られる。つまり、1個のDRAMダイに8チャネルのインターフェイスがある。従来のDRAMは1ダイに1チャネルで、HBMはこの点が大きく異なる。チャネルに分ける大きな目的は、メモリのアクセス粒度を一定に抑えることだ。

JEDECメモリのバス幅比較
PDF版はこちら

　実際には、モバイル向けのWide I/Oが、1ダイで4チャネルの構成を採っており、HBMの8チャネル/ダイはその延長にある。また、GDDR5とDDR4はメモリセルアレイをバンクグループを分けてプリフェッチする構造を採っており、下の図のように異なるバンクに並列アクセスができる。GDDR5とDDR4のアーキテクチャはチャネルに明確に分割されているわけではないが、メモリセルを分割・並列化してメモリアクセス粒度を抑えるという目的は同じだ。ちなみに、HBMのプリフェッチは、まだ明らかにされていない。

DDRメモリのプリフェッチ機構
PDF版はこちら

　HBMは、シリコン基板にホールを開けて配線するTSV技術でDRAMダイを積層する。HBMでは最初の世代では最大4個のDRAMダイをスタックする。8個のダイのスタックも視野に入れる。スタックしたDRAMダイは、TSVによって8チャネルで接続される。電圧振幅はVDDとVDDQとも1.2Vになる見込みだ。

TSVのダイスタッキング技術
PDF版はこちら

HBMのインターフェイス
PDF版はこちら

128GB/secでスタートして2倍にまで広帯域化

　HBMはピン当たりの転送レートが1Gbpsからスタートする。インターフェイスは1,024-bitなので、1Gbps時にはワンチップで1Tbpsのメモリ帯域となる。バイトに換算すると128GB/secだ。また、同じ第1世代のHBMで2Gbpsかそれ以上の転送レートへと引き上げる余地があるという。

　「周波数のレンジとしては最初の製品に対して、2倍から最大3倍までのスケーラビリティがあると考えている。GDDR5は4Gbpsが最初のターゲットだったが、現在は5Gbpsを越えて7Gbpsに達しようとしている。同様にHBMも2倍の転送レートまでは確実で、おそらく3倍まで引き上げることができるだろう」とあるJEDEC関係者は言う。

　現在の段階では、JEDECで規格化を進めているのは第1世代の2倍の転送レート2Gbpsまで。2Gbpsで、チップ当たりの帯域は2Tbpsで256GB/secとなる。もし、HBMで3Gbpsが可能になれば、チップ当たりのメモリ帯域は384GB/secに達することになる。

スタックドDRAMのソリューション
PDF版はこちら

　モバイル向けのWide I/O系メモリは、TSVの3Dスタッキングを考慮して規格化され、2.5Dもサポートする方向へと向かった。それに対して、HBMは当初からTSVインタポーザを使った2.5Dソリューションを前提としている。それには多くの理由があるが、最大の理由は、HBMの主なユーザーとして想定しているGPUやCPUのベンダーが、3Dを望まなかったからだという。あるJEDEC関係者は次のように説明する。

　「HBMがTSVインタポーザにフォーカスしているのは、熱の問題もあるが、プロセス技術の問題も大きい。先端プロセスが開発されてから、そのプロセスでTSVが利用可能になるまで時間がかかるからだ。さまざまなテストを行なう時間も考慮すると、おそらく、18～20カ月かかるだろう。すると、次の世代のプロセス技術がもう立ち上がり始める時期になる。そうなると、チップベンダーにとっては、TSVを使った1世代古いプロセス技術を使うか、TSVを使わない新しいプロセス技術を使うか、という選択肢となる。GPUなどのメーカーは、トランジスタジャンキなので、(搭載できるトランジスタ数が減る)古いプロセス技術という選択はありえない。だから、TSVインタポーザを使わなければならない」。

　下のスライドのように、TSVインタポーザを使う場合にも、スタックドDRAMの利点の多くは享受できる。

TSVインタポーザを使うメリット

　Wide I/Oは当初3Dスタックにフォーカスして設計されたため、インターフェイス部分は下のダイ写真にようにチップ中央に集められていた。それに対して、HBMはTSVインタポーザの使用にフォーカスするため、インターフェイス部の配置が異なるという。Wide I/Oはチップの中央にインターフェイスがあるため、チップ中央に配置することが多いクロスバースイッチとメモリコントローラにインターフェイスを近接させることができる。しかし、HBMのインターフェイスがチップのエッジに配置されるとすると、そうした利点は得られないことになる。

Wide I/Oのインターフェイス

HBMのインターフェイス

疑問点があるNVIDIAのVoltaのスタックドDRAM

　NVIDIAは次々世代GPUのVolta(ボルタ)で、スタックドDRAMをビデオメモリに採用し、TB/secの超広帯域メモリを実現することを明らかにした。下のNVIDIAのスライドが示すように、Voltaは明瞭に2.5Dソリューションで、HBMと思われるメモリを載せている。このVoltaのスタックドDRAMについて、あるJEDEC関係者は「(Voltaのメモリは)HBMを想定していると見られるが、図はマンガ的でHBMとはちょっと離れている」と言う。

Voltaのメモリ

　まず、TSVインタポーザはダイ面積が限られているので、Voltaの図より、もっとダイ同士が近接したチップになるという。Voltaの図のようなTSVインタポーザは、経済的にはあり得ないという。また、Voltaの図では6個のDRAMスタックをGPUの周りに配置しているが、インターフェイス幅の広いHBMでは6スタックはかなり難しいだろうと指摘する。「6スタックというのは、ちょっと驚いた。NVIDIAがちゃんとHBMの仕様を検討した結果なのかどうか疑問だ」とあるJEDEC関係者は言う。もっとも、GDDR5でx512インターフェイスを実装してしまう場合もあるので、HBMで6スタックもありえない話ではないかも知れない。

　HBMの最初のスペックになると見られる1Gbpsのピン当たり転送レートでは、NVIDIAが主張する1TB/secのメモリ帯域の実現には8スタックが必要となる。しかし、6スタックでも難しいとなると、少なくとも最初の世代で1TB/secは怪しくなる。もっとも、HBMが高速化する時期は早いと見られるため、1TB/secがそう遠いわけではない。

シングルチップのメモリ帯域は圧倒的なHBM

　下はJEDECのパフォーマンスDRAMの転送レートと帯域のチャートだ。シングルチップの帯域と、複数チップによる広いインターフェイス構成での帯域を示してある。HBMの目立つ特徴は、シングルチップ当たりの帯域が極めて広いこと。GDDR5はx32で使用する場合でも、現状の6Gbpsでチップ当たり24GB/secに過ぎない。それに対して、HBMはワンチップで128GB/secから256GB/secとなる。

JEDECパフォーマンスDRAMの転送レートと帯域
PDF版はこちら

　コモディティDRAMと比べると、差はさらに大きい。x16チップでもDDR3は2.13Gbpsの転送レートでも帯域は4.3GB/sec程度。DDR4のロードマップ上の最高速である転送レート3.2Gbpsで6.4GB/secで、4.26Gbpsまで引き上げても帯域は8.5GB/secに留まる。コモディティDRAMとGDDRでは、チップ個数を多くして基板上の配線を増やして帯域を広げるしかない。

　それでも、サーバーCPUでx256のメモリインターフェイス構成でもDDR4 3.2Gbpsで102GB/secが上限となる。現行のメインストリームPCなら、x128インターフェイスでDDR3で1.86Gbpsまでなら帯域は30GB/sec以下だ。

　GPUは現在GDDR5でx256からx384インターフェイスで300GB/secに近づいている。IntelのHPC(High Performance Computing)向けKnights Cornerはx512で320GB/secの帯域を達成している。しかし、GDDR5の高速化は限界に近づきつつあり、転送レート7Gbps台で止まると見られている。x384でもメモリ帯域は300GB/sec台までが限界で、x512でも500GB/secに届くか届かないかだろう。無理矢理高速化しても、もはや限界が見えているのがGDDR5の現状だ。

　それに対してHBMは転送レート1Gbpsでも2スタックでメモリ帯域256GB/sec、4スタックで512GB/secに達する。そこから倍速の2Gbpsに移行すると、4スタックで1TB/secに到達できる。4スタックまではJEDECでも想定しているようなので、1TB/secは近づいている。NVIDIAのVoltaの図のように、もし6スタックが可能なら2Gbps時には1.5TB/secになる。

　HBMは必要とされているメモリ帯域を達成できる数少ない選択肢だ。しかし、HBMにも泣き所があり、それはTSVインタポーザを使うことによるコストアップだ。コストについては楽観論と否定的な見方があり、予想が難しい。少なくとも出だしの2015年前後はかなり割高につくはずで、そのため、グラフィックスでもGDDR5をすんなり置き換える可能性は低い。最初はハイエンドだけの導入で、かなりの期間GDDR5と併存するかも知れない。HBMはHPC(High Performance Computing)とネットワーク機器にも浸透を狙っている。

DRAMの技術動向
PDF版はこちら

　現在の流れでは、スタックドDRAMが2014から2015年に浸透し始める見込みだ。しかし、すでに第1世代のWide I/Oは、立ち上げがうまく行かず、Wide I/O 2での仕切り直しとなっている。JEDECが提示する広帯域メモリの解決策はスタックドDRAMに向かっているが、どういったペースで浸透するのかは、まだ見えてこない。しかし、プロセッサが広帯域メモリを切望していることも確かで、今後、CPUとGPUの統合が進むと、ますますメモリ帯域が重要になる。

（後藤弘茂 (Hiroshige Goto)E-mail）