後藤弘茂のWeekly海外ニュース

IntelのeDRAMチップは128バンク構成でリード/ライト/リフレッシュを並列

Intelが自社でのDRAM製造に戻ってきた

 かつてDRAMのパイオニアだったIntelは、自社でDRAMチップの製造を再開した。ただし、汎用のDRAMチップではなく、自社のCPUに最適化した超高速DRAMだ。Intelが自社でDRAM製造に踏み切ったのは、プロセッサのボトルネックがメモリアクセスとなったからだ。プロセッサの性能を上げるには、メモリ帯域を大幅に引き上げて行かなければならない。Haswell世代からはGPUコアのパフォーマンスが劇的にアップしたため、メモリ問題は差し迫った問題になった。消費電力を抑えながら、メモリ帯域ニーズを満たすには、中期的なソリューションとしてはカスタムのDRAM技術しかないとIntelは判断したようだ。

Haswell 4+3のダイレイアウト(PDF版はこちら)
Haswellグラフィックスコア推定図(PDF版はこちら)

 Intelは、「第4世代Intel Coreプロセッサ(Haswell:ハズウェル)」の最上位モデルにeDRAM(組み込みDRAM)チップを搭載したMulti-Chip Package (MCP)版を設けた。Intelの最新の22nmプロセスを使うeDRAMチップで、CPUとは専用の「OPIO(On Package I/O)」で接続する。OPIOは、64-bit幅で3.2GHz動作、6.4Gtps転送レートで、メモリ帯域は片方向51.2GB/secで、リードとライトの双方向なら102.4GB/secとなる。OPIOで結ぶIntelのeDRAMの内部帯域も、OPIOに見合うだけの広帯域となっている。

HaswellのeDRAMスペック
HaswellのOn Package I/O(PDF版はこちら)

高速なメモリセルで512-bitワードのアクセス

 Intelは2月の半導体カンファレンス「ISSCC(IEEE International Solid-State Circuits Conference)」でeDRAMチップの詳細を明らかにした。そこで、eDRAMのメモリセルの動作が高速であることが分かった。eDRAMのメモリアレイの動作クロックは、0.7V時に1GHzで、1.05V時には2GHzが可能だ。2GHzのサイクルタイムは0.5ns(ナノ秒)で、RCT(Random Cycle Time)は6アレイクロックであるため、2GHzで動作する場合のRCTは3nsとなる。2GHz時のメモリアレイの帯域は、リードとライトそれぞれが64GB/secだ。つまり、ワンチップで最高128GB/secの内部帯域を実現できることになる。

動作クロックと電圧のグラフ

 しかし、実際の製品では、メモリアレイのクロックとI/Oのクロックは同期している。I/Oのクロックに対して、メモリセルアレイのクロックは半分に設定される。現在の製品ではOPIOは3.2GHzクロックであるため、メモリセルアレイはIOの半分のクロックの1.6GHzとなる。

 また、リードとライトそれぞれのオペレーションは、さらにセルクロックの2サイクルかけて動作する。つまり、OPIOの転送レートに対して、メモリセル内部の動作は8分の1の速度となる。しかし、OPIOは512-bitワード分の転送に8サイクルかかるので、ちょうどバランスが取れる。ちなみにこのeDRAMのRCT(Random Cycle Time)は6アレイクロックであるため、1.6GHzで動作している現在のeDRAMのRCTは3.75nsとなる。

 チップの1Gbit(=128MB)のメモリセルアレイは、オペレーションでは、256Mbitの垂直のクォータに分割されている。メモリセルアレイへのリードまたはライトのオペレーションは、4つのクォータに対して並列に行なわれる。各クォータの同じアドレスに対して64-bit x2のリードまたはライトが行なわれる。4つのクォータ合計では64-bit x8で512-bitワイドのワードサイズとなる。

1Gbitダイの動作と帯域

IOスピードとマッチしたメモリセルの性能

 最近はメモリセルアレイを2つのバンクグループに分割して、異なるアドレスへのオペレーションをバンクグループで並列化させる、いわゆるマルチチャネルのDRAM技術が増えている。しかし、Intelは、今回のeDRAMではその手法は採らなかった。メモリアレイ全体に対して、1つのアドレスに対するリードと、1つのアドレスに対するライトを同時に行なう。メモリセル自体が高速であることが、こうしたアーキテクチャを取った理由と見られる。

 アレイでは512-bitのリードまたはライトが、1.6GHzのアレイクロックの半分のスピードで行なわれる。そのため、メモリアレイからのリードとライトの帯域はそれぞれ51.2GB/secとなる。また、リードとライトそれぞれの動作を、メモリアレイに対して同時並列に実行できるため、リードとライトの合計帯域は102.4GB/secとなり、OPIOの帯域とマッチする。

・メモリセルアクセス
64-bit×2×4クォータ=512-bitワイドワード

・アレイアクセス帯域(リードまたはライト)
512-bit×1.6GHz÷2サイクル動作=51.2GB/sec

・双方向アレイアクセス帯域(リード+ライト)
51.2GB/sec×2=102.4GB/sec

HaswellのeDRAM(PDF版はこちら)

 eDRAMのメモリセルアレイに対するリードとライトは、同じバンクに対しては同時にできない。しかし、アレイは128バンクで構成されるため、リードとライトのコンフリクトを避けることができる。

 もっとも、アドレスバスはアレイ全体で1つしかないので、リードとライトの両アドレスを同サイクルにメモリバンクに送ることはできない。だが、データのリードとライトはそれぞれ2サイクルかかる。そのため、毎サイクル動作するコマンドバスは、1サイクル置きにリードとライトのコマンドを、1サイクルずらして交互に異なるバンクに送ることができる。そのため、リードとライトを並列に実行できる。

 Haswell eDRAMのデータを保持するためのリフレッシュ動作も特殊だ。リフレッシュ処理は、メモリアレイ全体を64個のバンクグループに分けて行なう。1つのリフレッシュバンクグループには各クォータにつき2個の4分の1バンク、合計で2バンクが含まれている。2バンクずつの、64グループで交互にリフレッシュを行なっている。全てのバンクを同時にリフレッシュする方法は採らず、リフレッシュするバンクグループを細分化している。バンク数が128と非常に多いため、リードまたはライト動作とのコンフリクトの頻度は少ない。そのため、実効帯域は、リフレッシュによってほとんど削がれることがない。また、リフレッシュのアドレスは、リード&ライトのアドレスバスと分離されており、リードとライトに並行して、リフレッシュを行なうことができる。

 こうしたメモリセルアレイの構成を見ても、徹底してパフォーマンス重視の設計となっていることが分かる。

アクセストランジスタに3Dトランジスタを使用

 メモリセルは1T-1C構成で、アクセストランジスタには22nmの3Dトランジスタ(Tri-Gate)を使っている。22nmプロセスの新しいトランジスタオプション「ULP+(Ultra Low Power+)」が、アクセストランジスタに使われている。Intelは半導体カンファレンス「IEDM 2013」の論文の中で、アクセストランジスタにULP+の3Dトランジスタを使ったことでリーク電流(Leakage)を大幅に抑えることができたと説明している。

アクセストランジスタはトライゲート

 下のスライドを見るとメモリセルは「8F2」相当のように見える。しかし、メモリセルは、決して“22nm”の8F2ではない。スライドの写真上のワード線は、配線層の上層部にあり、ピッチが広い。そのため、8F2のように見えても、実際のDRAMメモリセルの面積は0.029平方um(29,000平方nm)とかなり大きい。それでも、同じIntel 22nmプロセスのSRAMメモリセルと比べると3.2分の1と小さいため、高速ロジックプロセスに混載できる大容量メモリとして利点がある。

eDRAMのキーフィーチャー

 メモリセルのキャパシタはビット線上にあるCOB(Capacitor Over Bitline)で、M2からM4までの配線層を使ってキャパシタを生成している。キャパシタ自体は金属膜で絶縁膜を挟んだMIM(Metal Insulator Metal)で、容量は14.2fF/cell。

eDRAMのキャパシタ

 DRAMメモリセルアレイは、256K-bitのサブアレイを最小構成としている。サブアレイは256ワードライン×1,024ビットラインの構成となっているが、実際にはeDRAMのRowとColumnの両方に冗長性を持たせている。そのため、サブアレイにはトータルで1,024以上のColumnと256以上のRowが配置されている。チップ全体では4,096のサブアレイからなる。サブアレイのダイエリア効率は65%。

サブアレイのアーキテクチャ

 サブアレイ8個で、2M-bitの4分の1バンクを構成する。物理的な構成としては、メモリセルは128M-bit(16MB)のマクロインスタンスで構成されている。4分の1バンクが64ユニットで128M-bitマクロが構成されている。128M-bitのマクロのレベルでは、メモリ密度は17.5M-bit/平方mm。17.5M-bit/平方mmの128M-bitマクロを1G-bit分並べるとすると、マクロだけで58.5平方mmのダイ面積を占める計算だ。チップ自体のダイサイズは77平方mmだ。データアクセスの面では、メモリアレイは4個のクォータに構成されており、それぞれ256Mbの容量となる。

1Gbitダイの間取り

SoCへの統合も可能なeDRAM技術

 IntelのeDRAMは、同社の高速ロジックプロセスにeDRAMとしては高密度のDRAMセルを組み込んだ。この技術を、今回のようなeDRAMチップとして高速インターフェイスと組み合わせて提供するだけでなく、SoC(System on a Chip)に組み込むこともできる。その場合はeDRAMをワークメモリとして取りこんだ、外部メモリ不要のSoC製品を提供できる。もっとも、Intelはフラッシュメモリの組み込み技術を持っていないため、ストレージメモリは必要になる。Intelが狙う、IoT(The Internet of Things)時代の比較的高パフォーマンスの組み込み分野では、高速でそこそこ大容量のeDRAMは武器となる。

 eDRAM技術の懸念の1つは、この先さらに微細化しても、この技術を移行させられるかどうかだ。Intelでは14nmプロセスも目の前にあり、10nmプロセスもオントラックだが、高速ロジックプロセスの微細化のペースに、eDRAMのような技術を追従させることはかなり難しい。

 これは、統合型電圧レギュレータ(iVR)のような回路設計&プロセス技術についても同じだ。iVRでは、ロジックチップに載せるBuckコンバータも難しいが、さらにはインダクタをロジックに統合するとなると、先端プロセスに載せ続けることはハードルが高い。今後の新不揮発性メモリ技術についても同じことが言える。Intelがこうした問題をどう解決して行くのかが注目される。半導体業界では、Through Silicon Via (TSV)によるチップスタックがこうした問題のソリューションとして注目されている。

(後藤 弘茂 (Hiroshige Goto) E-mail