後藤弘茂のWeekly海外ニュース
Haswellの高性能グラフィックスのカギ「Intel内製eDRAM」の詳細
(2014/3/10 08:55)
102.4GB/secの超広帯域と128の多バンクのeDRAM
Intelは、「第4世代Coreプロセッサ(Haswell:ハズウェル)」の最上位モデルに搭載するeDRAM(組み込みDRAM)の仕様をISSCC(IEEE International Solid-State Circuits Conference)で明らかにした。Intelは、Haswellの最上位のGPUコア構成「Intel Iris Pro Graphics 5200(GT3e)」に、自社開発/製造のeDRAMチップのL4キャッシュを備えた。4 CPUコアに最大構成のGPUコアのCPUダイとeDRAMダイを組み合わせたMulti-Chip Package (MCP)製品として提供されている。eDRAM「Crystalwell(クリスタルウェル)」は、128MB(1G-bit)容量で、ダイのサイズは77平方mmだ。
このeDRAMは、一言で言えばIntel CPUのためのカスタムDRAMで、22nmプロセスの高速ロジックプロセスに組み込まれ、超広帯域インターフェイスを備え、高速メモリセルアレイを多バンクに構成した、パフォーマンス重視のDRAMだ。にも関わらずインターフェイスの電力消費は劇的に低く抑えられている。CPUを高速にするには、メモリを高速かつ低消費電力にしなければならない、というIntelの思想を体現したチップとなっている。
IntelのHaswellには、さまざまな構成がある。最大構成の4+3では、4個のCPUコアと320個の積和算ユニットのGPUコアを備えている。これだけのプロセッシングパフォーマンスにフィードするには、メインメモリの帯域は狭すぎる。そのため、eDRAMでメモリ帯域を拡張した。
Intel製のこのeDRAMは128バンクという非常に多くの独立バンクで構成されている。eDRAMのメモリセルアレイの動作周波数は1.6GHzと高速で、メモリアクセス粒度は512-bit(64-byte)。CPUとのインターフェイスであるOPIO(On Package I/O)は64-bit幅で3.2GHz動作、6.4Gtps転送レート。OPIOのメモリ帯域は片方向51.2GB/secで、リードとライトの双方向なら102.4GB/secとなる。これだけの高帯域インターフェイスで、消費電力はわずか1W強に抑えられている。ただし、DRAMとしてはメモリセルが非常に大きく、汎用のDRAMチップとは異なる。
ワンチップのメモリ帯域としては圧倒的なIntelのeDRAM
102.4GB/secというメモリ帯域は、現行のDRAM技術では圧倒的だ。GPUで言えば、メインストリームGPUクラスの128-bitメモリインターフェイスのGDDR5搭載ボードのメモリ帯域となる。CPUに大型のGPUコアを統合した場合の最大のボトルネックはメモリ帯域だが、IntelはeDRAMでその問題を解決した。
IntelのeDRAMチップで特に目立つのは、1個のチップで102.4GB/secクラスのメモリ帯域を実現している点だ。比較すると、GDDR5が最高の7.2Gtps時にシングルチップ(x32時)で28.8GB/secなので、IntelのeDRAMはGDDR5チップの4倍近い帯域となる。JEDECの次期DRAM「HBM(High Bandwidth Memory)」は4ダイをスタックした時の帯域は広いが1チップ当たりの帯域はIntelのeDRAMの半分程度までとなる。HaswellのeDRAMは、ダイ当たりの帯域では抜群の技術となる。
もう1つ目立つのはメモリアクセスのエネルギーだ。OPIOのビット当たりのエネルギー消費は1.22pj/b(picoJoule/bit:ピコジュール/ビット)という。コンピュータ業界が目標としている1pj/b以下の大台にあと一歩のところまで近づいた。
6.4Gtpsの転送レートのパッケージ内インターフェイス
OPIOは片方向64-bit幅のインターフェイスで、メモリ帯域は双方向で102.4GB/sec。64-bit幅なので、512-bitワードの転送にはOPIOの転送レートで8サイクル分かかることになる。Intelの通常のキャッシュライン長は512-bit(64-byte)だ。
OPIOのベースクロックは3.2GHzで、両エッジを使うためデータ転送レートはさらに倍速の6.4Gtpsとなる。そのため、メモリ帯域はリードとライトそれぞれ片方向は51.2GB/secで、リードとライトの双方向なら102.4GB/secとなる。下のような計算になる。
・片方向(リードまたはライト)のメモリ帯域
64-bit×2エッジ×3.2GHz=51.2GB/sec
・双方向(リード+ライト)のメモリ帯域
51.2GB/sec×2=102.4GB/sec
OPIOは8データクラスタで構成されている。トランスミッタ(TX)とレシーバ(RX)それぞれ4クラスタで、16-bitのデータと、フォワードクロックやECCの合計で19インスタンスとなっている。コマンド&アドレスは1クラスタで、サイドバンドも備える。信号はシングルエンデッドで、ディファレンシャル信号ではない。これは、信号線の数を抑えるのと同時にシリコン面積を減らすためだという。OPIOはシンプル化の思想で設計されており、PHYも非常にシンプルだ。
OPIOはエンベデッドクロックではないため、各配線の長さを揃える等長配線が必要となる。通常は、等長配線のためにチップ間のスペースを広く取る必要がある。しかし、今回のeDRAMのOPIOでは、Haswell側もeDRAM側も、どちらも最初から等長配線を前提としたピン配置にされている。そのため、複雑な配線パターンを作らずに等長配線が可能になった。また、それによってHaswellダイとeDRAMダイの間の間隔を1.5mmと極端に近接した配置にして、インターフェイスの電力消費も抑えられたという。
IntelのDRAMインターフェイスの目標エネルギーは1pj/b以下
OPIOのインターフェイスの消費エネルギーは1.22pj/b(picoJoule/bit:ピコジュール/ビット)。インターフェイス帯域は102.4GB/secなので、逆算するとOPIOの消費電力は1W強となる(1Jouleは1W/sec)。スライドでは1Wとなっている。
1.22pj/bという数字は重要だ。現在のコンピュータ業界のチップ間インターフェイスのエネルギーの中期的な目標は、1pj/b以下の大台だからだ。0.5~0.6pj/b前後をゴールとするという声が多い。例えば、下のスライドはIntelでExaFLOPSスパコンなどを担当するShekhar Borkar氏(Intel Fellow, Data Center Group, Director, Extreme-scale Technologies)のもので、チップ間インターコネクトのエネルギーの目標値を0.5~0.6pj/b前後で、インターコネクト距離を数cmとしている。IntelのeDRAMのOPIOは、この目標にまだ到達できないものの、これまでと比べるとかなり近づいている。
今回のISSCCでは、パネルディスカッションでも、メモリインターフェイスのエネルギーの問題が取り上げられた。Intelも参加したパネルでは、やはり目標が0.5~0.6pj/b程度であることが確認されている。従来のメモリインターフェイスのエネルギーコストからすると、この目標はかなり遠いが、低電力のインターフェイス技術が急速に発達しているためゴールが見えて来つつある。下は2010年にチップカンファレンス「Hot Chips」で講演を行なったMITのVladimir Stojanovic氏のスライドだ。
今後のメモリ技術の方向性
Intelの今回のOPIOの低消費エネルギーは、完全にカスタム設計のeDRAMとインターフェイスであるために実現できている。課題の1つは、これを低コストな汎用の技術として行くことで、OPIOはそれまでのたたき台的なステップとも言える。IntelやGPUベンダが求めるTB/secのメモリ帯域を実現しようとすると、0.5~0.6pj/bでも電力は5W程度となる。
インターフェイスのエネルギーに加えて、DRAM自体がエネルギーを消費する。現状ではDRAMチップ自体の電力消費も大きい。これについては、Intelは以前からDRAMメモリセルアレイの中でアクティベートするページの粒度を小さくすることで、電力を減らすことを提案している。下は、IntelのBorkar氏が、日本の半導体チップカンファレンス「Cool Chips」の2011年のキーノートスピーチで示したスライドだ。
Intelはインターフェイスだけでなく、メモリアクセス全体のエネルギーも数pj/bにまで抑えようとしている。下のCool Chipsのスライドにあるように、現在、トータルで100pj/b以上(スライドではbyte単位で1,500pj)あるエネルギーを、数十分の1に落とす。
IntelのHaswell eDRAMは、その技術を概観すると、Intelの進もうとしている技術的な方向がよく分かる。目標とする0.5~0.6pj/bというスペックがあり、その方向へ進む過程に1.2pj/bのOPIOを使ったキャッシュeDRAMがある。そして最終的な到達点は、間違いなくスタックドDRAM技術(TSVインタポーザの利用も含む)になるだろう。