■後藤弘茂のWeekly海外ニュース■
米カリフォルニア州サンタクララで開催されたServer Memory Forumの会場 |
DDR4など次世代メモリ技術と、DRAMチップを積層するシリコン貫通ビア(TSV:Through Silicon Via)技術の動向が見えてきた。
ポイントは4つ。1つ目は、DRAMが市場毎に異なる種類のメモリが主流となる時代に入ること。2つ目は、DDR4が、よりDDR3からの継承性が高い仕様になり、メモリ高速化も鈍化することが明瞭になったこと。3つ目は、JEDEC(米国の電子工業会EIAの下部組織で、半導体の標準化団体)がTSVを本気で推進しており、早い段階から浸透させようとしていること。4つ目は、この先のメモリの高速化ではTSVに期待する意見が強まっていること。メモリの先行きは、かなりカオス状態になり始めた。
2013年のメモリ PDF版はこちら |
JEDECは、米カリフォルニア州サンタクララで、サーバー向けメモリ技術のカンファレンス「Server Memory Forum」を開催した。このカンファレンスは、サーバー向けと銘打ってはいるが、実際にはDDR4とTSVを使った3D積層のJEDECスタンダードの進展を公開する最初のカンファレンスだ。つまり、サーバーだけでなく、PCメインメモリやグラフィックスメモリを含めた、次世代メモリのベースとなる技術や、JEDEC内での議論の動向を明かす最初の場となった。
DDR4はサーバー市場から浸透 |
DDR4の説明カンファレンスであるのに、サーバーメモリ向けとなっているのは、JEDECがDDR4ではサーバーにフォーカスするためだ。9月のIntel Developer Forum(IDF)では、IntelがDDR4をサーバーから導入し、PCに浸透するのは2015年になると明らかにした。メモリ規格を決めて普及を推進するJEDECの動きも、それと連動している。
JEDECのチェアマンを務めるMian Quddus(マイアン・キュドス)氏(Samsung Semiconductor/Chairman, JEDEC)は、次のように語る。
「DDR4は、まずサーバーに浸透するだろう。その一方で、PCはDDR3にしばらくの間留まる。携帯電話などはLPDDR系DRAMが使われており、LPDDRはノートPCの一部、Ultrabookにも浸透するだろう」「DRAMは、もはやワンサイズフィッツオール(one size fits all)では、市場のニーズに対応仕切れなくなっている。これがトレンドだ」。
●DRAMの低価格化がメモリの分化を後押しDRAM業界は、非常に長い間、1種類のメモリをほとんど全ての市場に提供するワンサイズフィッツオールを続けてきた。だが、携帯電話やスマートフォンにモバイル向けに特化したDRAMが使われるようになり、状況が変わってきた。
PCに近い使われ方をするにも関わらず、タブレットはモバイル向けのLPDDR系を使う。2013年にはノートPCの最薄型のUltrabookにもLPDDRメモリが浸透する可能性が出ている。身近なデバイスに、どんどんモバイル向けメモリが浸透しつつある。
その一方で、ハイエンドのメモリもDDR4へと交替する。通常は新種DRAMはPCから導入されるが、DDR4はサーバーから導入される。2013~2015年までは、PCはほとんどがDDR3、サーバーがDDR4と、PC&サーバー市場でもメモリが分断されるようになる。さらに、HPC(High Performance Computing)の世界では、TSVを使った高速メモリを検討し始めている。
こうして見ると、メモリは、市場によって異なる種類が併存する時代に入り始めたことがわかる。その背景には、技術上の理由と経済上の理由がある。技術的には、バッテリ駆動のモバイル機器では消費電力の低いLPDDR系が、マルチコア化でメモリ帯域と容量の拡大(電力を抑えながら)が急務のサーバーではDDR4が望ましい。だが、それだけでなく、DRAMの暴落も大きく影響している。
DDR3 DRAMは現在歴史的な低価格で、メーカーは利益を出せずに苦しんでいる。そのため、少しでもDRAMに付加価値をつけて高く売りたい状況にある。PC市場に投入すると、DRAMはあっと言うまに価格競争で利益の出ない価格に下がってしまう。しかし、サーバーやモバイル市場では、消費電力を下げることができたり、大容量&高速にできるのなら、少しDRAM価格が高くても許容される。そのため、DRAMベンダーとしては、付加価値のついたDRAMを、付加価値が評価される市場に投入したい。DDR4については、慎重にサーバーから導入して、少しでも利益を出そうとしていると見られる。そのため、DDR4ではメモリキャパシティを増やすという部分が強調された。サーバーでは、メモリ容量を増やすことが、現在最重要の課題となっているからだ。
DDR4メモリの特徴 | クラウドによりメモリ容量へのニーズが増大 | サーバーにおけるメモリの課題は容量 |
●ファイナライズ間近のDDR4メモリ規格
DDR4の仕様はまだ最終版になっておらず、来年(2012年)春頃に最終仕様が発表される予定だ。今年(2011年)の1月の段階で、SamsungのテストチップなどでDDR4インターフェイスのバリデーションや各種動作テストを行ない、下のスライドのように良好な結果が出ているという。現在はDIMMの仕様にも入っており、秒読み段階に入りつつある。
DDR4とDDR3の主な仕様の比較 | DDR4は順調に開発中 |
DDR3とDDR4のモジュール比較 | サーバー向けに大容量モジュールを用意 |
DDR4については、JEDECのBill Gervasi(ビル・ジャヴァーシ)氏(Form Factor, Inc./Chairman, JEDEC JC-45.5)が昨年(2010年)のメモリカンファレンス「MemCon 10」でJEDECでの途中経過を明かしていた。しかし、フタを開けたらDDR4のスペックは、MemConで明かされた仕様とはかなり異なっていた。
まず、DDR4のインターフェイスはサーバーでもポイントツーポイントとなっていたが、実際にはサーバーではマルチドロップをサポートする。サーバー側のニーズに応えてスペックが変わって来たようだ。基本は、サーバーでは1チャネルに2DIMMスロットで、現状と大きくは変わらない。ただし、DIMMについては、DDR3で導入されつつある「LRDIMM (Load Reduced DiMM)」の存在感がぐっと強くなっている。後述する積層の3DSを使う場合は、LRDIMMが推奨されている。
DDR4のメモリインターフェイス | LRDIMMのインターフェイス |
LRDIMMはバッファチップをDIMMに搭載する新しいDIMM規格だ。Registered DIMM(RDIMM)と異なり、コマンド/アドレスバスだけでなくデータバスもバッファする。インターフェイスの高速化と大容量化が可能になる。高消費電力と高価格で悪評が高かった「FB(Fully Buffered)-DIMM(FBD)」と基本は似ているが、インターフェイスをシリアル化するFB-DIMMと異なり、パラレルバスのLR-DIMMではバッファチップは低コストかつ低消費電力にできるという。
LRDIMMの技術概要 | メモリバッファのブロックダイアグラム |
LRDIMMの価格 | サーバー向けのLRDIMM |
●遅いDDR4のロードマップ
JEDECのサーバー向けDDR4で目立つのは、スローペースの高速化だ。下のスライドはOracleが今回のカンファレンスで示したJEDECのメモリロードマップだ。Oracleなので当然サーバー向けのDDR4のロードマップとなる。このチャートには面白い点がいくつかある。わかりやすくするために起こしたのが下の図だ。
まず、気がつくのはDDR4の高速化が極めてゆっくりしていることだ。サーバー向けは、もともとPC向けより低速だが、それにしてもスローペースだ。しかも、このロードマップは、2020年までDDR4が伸びている。DDRやDDR2では3年ほどで転送レートが2倍となり、次のDRAM規格に世代交替した。それがDDR3では本格的な世代交替がPCで始まるのは2014~15年で、移行に7年近く(サーバーでは5年以下)かかる。この予想ロードマップを見ると、DDR4も同程度の世代交替と高速化のペースが想定されていることがわかる。
JEDECのDRAMロードマップ |
DDR4メモリのロードマップ(PDF版はこちら) |
もちろん、ロードマップは大きく書き換わる可能性はある。しかし、今の時点で、JEDECがDDR系のコモディティメモリの高速化と世代交替を急いでいないことは確実だ。むしろ重視しているのは大容量化と低消費電力化だ。DDR3(1.5V)では低電圧版のDDR3L(1.35V)が登場したが、DDR4(1.2V)でも低電圧版DDR4L(1.0~1.0x Vの間になる予定)が登場する。DDR4では、通常電圧版から低電圧版に入れ替わるロードマップとなっている。
容量では後で説明する「3DS(主にTSVを使うDRAMの積層規格)」によって、1チップパッケージの中に何枚もDRAMのダイ(半導体本体)を重ねて格納することで、容量を増やす。DDR4_2Hは2-High(DRAMダイを2枚重ね)、DDR4_4Hは4-High、DDR4_8Hは8-Highで最大8枚まで重ねられる。16G-bit DRAMを重ねるなら1チップパッケージで16GB(128Gbits)の容量にできる。
しかし、DRAMチップ自体の大容量化はムーアの法則より遅いペースでしか進んで行かない。上の図のように、現在は2Gbits品が主流だがこれが、4Gbitsに移行し、2019年頃には16Gbitsに達する見込みだ。だが、ムーアの法則の2年で2倍のペースにはほど遠い。その最大の理由は、プロセス技術自体の微細化が遅いからだ。DRAMのプロセス技術は現在は30nmプロセス台。これが来年(2012年)以降に28nm前後の20nm台後半のプロセスに以降し、2014年には22nm前後の20nm台前半にさしかかる。だが、CPUのプロセスノードと比べると微細化のペースは半分に過ぎない。そのため、DDR4世代では積層パッケージが重要となる。
●DRAMの内部を4個の独立動作するグループに分けるサーバー向けは大容量にしなければならないという制約があるため高速化は遅い。そのため、DDR4はPCでのサポートが始まる2014~15年には高速化が促進されると推定される。実際、他のプレゼンテーションでは、DDR4の高速化が、やや速いペースで記されているもののある。ただし、その場合でも、やはり全体で見るとDDR4のペースは遅い。大枠では、DDR3頃からペースが緩やかになってきていることがわかる。このことは、メモリ帯域が足りなくなるシステムでは、DDR4と平行して別なメモリソリューションが導入される可能性を示唆している。
DRAMのドードマップ(PDF版はこちら) |
DRAMは、もともとコアのメモリセルのスピードがほとんど高速化していない。インターフェイス速度を速くしても、コアは低速なままで、プリフェッチ(Prefetch)テクニックで並列にアクセスすることで、転送レートを上げている。JEDECのカンファレンスでは、DDR4のプリフェッチ技術についても明らかにされた。カンファレンスでDDR4のパラメータの説明を行なったJEDECのJS Choi氏(Samsung)は、次のように説明した。
「DRAM世代に渡って、コア周波数はほぼ200MHzのままになっている。これはプロセス技術とセル技術の制約だ。そこで、インターフェイス速度を上げるために、プリフェッチを使ってきた。DDRでは1度に2データをアクセスすることで2倍の転送を、DDR2では4データを1度にして4倍の転送を。これに合わせるなら、DDR4ではプリフェッチ16にしなければならないはずだった。しかし、我々は異なる道を選んだ。それはバンクグループを使うことだ」。
「コンセプトは、16のメモリバンクをグループに分け、各グループが、あたかも独立したDRAMコンポーネントのように働くようにすることだ。(下の)スライドの左はx4/x8デバイスで、4バンクずつの4グループの分けられている。各バンクグループは、それぞれ独立した動作が可能だ。この技術自体は新しいものではない。GDDR5ですでに採用している技術と、ほぼ同じものだ」。
バンクグループ技術 |
GDDR5から転用したバンクグループ技術。DDR4には、この他にもLPDDRに似た方式を取っている部分もあり、JEDECのこれまでのDRAM規格の集大成的な技術となっている。
●バンクグループ技術でバスとDRAM内部の効率化を図るDDR4 DRAMは16バンクで、基本的にはこれが4つのバンクグループ(x4/x8デバイスの場合)に分けられている。4バンクそれぞれに個別のコマンドを発行することが可能だ。それぞれのバンクグループに対して、DDR3と同じプリフェッチ8nでアクセスする。しかし、インターフェイス速度に合わせるには、プリフェッチ8nの2倍のデータが必要となる。DDR4は複数バンクへのアクセスで、このギャップを埋める。
「2つの異なるバンクにアクセスする場合には、何の制約もなくインターフェイス速度に合わせた転送ができる。カラムコマンドの間隔であるtCCD(Column address to Column address Delay)が指標になる。あるバンクにアクセスした後、異なるバンクグループのバンクにアクセスする場合はtCCD_S(tCCDショート)となり4nクロックとなるため、アクセスに何の制約もない。しかし、同じバンクグループのバンクにアクセスする場合はtCCD_L(tCCDロング)となり、制約が生じる」。
つまり、異なるバンクグループにアクセスする限り、DDR4の転送帯域をフルに埋めることができる。しかし、同じバンクグループにアクセスする場合には帯域をフルに埋めることはできない。バスの実効帯域には、若干の制約がかけられている。
バンクグループの制約 |
Prefetchのアーキテクチャ(PDF版はこちら) |
ちなみに、上のスライドは間違えており、tCCD_Lが異なるバンクグループのアクセス、tCCD_Sが同じグループと書かれている。これは逆が正しい。Choi氏はスライドの記述が誤って逆になっていると認めている。
このように、バンクグループを使うことで、DDR4は高転送レートを達成している。利点は、CPU側からのメモリアクセス粒度をDDR3時代と同じに保つことで、メモリアクセスの実効率を上げること。DRAM内部をグループ化することで、DRAM内部の効率を上げること。そして、DRAMチップの製造コストを下げることだという。
「DDR4はDDR3に対してダイオーバーヘッド(ダイの肥大化)が5~6%で済んでいる。ダイサイズを抑えるのに効果があったのはプリフェッチを8に留めたことだ。もし、プリフェッチ16に増やしていたら、ダイはさらに5~7%も大きくなっていただろう。実際、DDR2からDDR3では、ダイオーバーヘッドは大きかった」とChoi氏は説明する。
実質的にプリフェッチ16相当のメモリアクセスを可能にするバンクグループによって、下の図のようにDDR4では高速化が可能だ。Choi氏は、DDR4で現在予定されている転送レートは3.2Gbps(3,200Mbps)までだが、過去の例から見て、それより高くなる可能性は高いだろうと言う。
DRAMセルとIOの周波数の関係(PDF版はこちら) |
ちなみに、図を見るとわかる通り、DDR4では製品の周波数の刻みが従来の倍になった。1,600Mbpsと2133Mbpsの間に1,867Mbpsが、2,133Mbpsと2,666Mbpsの間に2,400Mbpsがといった具合に、より細かなステップで製品の周波数が上がる。これは、高速化のペースが鈍化していることとリンクしていると考えられる。
●DDR4以降はTSVを推進するJEDECDDR4ではTSVによる積層技術「3DS」を採用することも重要な要素となっている。3DSはメモリのダイを重ねてワンチップパッケージに収めることで、メモリ容量の増大、低電力化、高転送レート化、高効率化を実現する。CPUと3DSの間のインターフェイス自体はDDR4だが、積層するダイの間を広インターフェイスで接続できる。
3DSの技術 | 3DSの特徴 | TSVによる積層化技術 |
JEDECは3DSをDDR4からいきなり導入するのではなく、DDR3からも試験的に導入しようとしている。技術的にはDDR3とDDR4の3DSは似通ったものになる。従来のDRAMの積層パッケージDDPやQDPとの大きな違いは、TSVを使うことと、マスタ-スレイブ方式を取ること。CPUとのDDR3/DDR4インターフェイスはマスタのDRAMダイが備える。マスタダイとスレーブダイ群の間は専用インターフェイスで結ぶことができる。このアーキテクチャによって、低電力化と高速化を実現する。
DDR3からも3DSを試験的に導入 | 3DSの内部接続 | マスタとスレーブのインターフェイス |
JEDECは、TSVによる3DSをDDR4だけでなくDDR3世代へも前倒ししてきた。しかし、TSVの量産準備ができているかどうかについては、JEDEC内部でも見解がわかれている。今回のカンファレンスでBill Gervas氏はTSVは少なくとも2016年まではスピードイールドの面から準備が整わないと発言。それに対して、メモリの部会を束ねるDesi Rhoden(デジー・ローデン)氏(Chairman, JEDEC JC-42: Solid State Memories)が、「JEDECの見解は、TSVは現在すでに準備ができているというものだ」と反駁する一幕があった。
TSVの前倒しに反駁するスライド |
また、カンファレンスでは、TSVを使ったDDR4とは異なるハイパフォーマンス版のメモリ技術も示唆された。一部でUltra Wide I/Oなどと呼ばれている技術で、シリコンインターポーザなどを使うことで、TSVを使わないCPUやGPUからTSVを使う高速メモリに直アクセスできるようにする。GDDR5の次のグラフィックスメモリ規格としてウワサされている仕様が、まさにこのようなものだ。
Wide I/Oとの比較 |