【後藤弘茂のWeekly海外ニュース】iPad 5世代モバイル機器に向けたメモリ技術「Wide I/O」

■後藤弘茂のWeekly海外ニュース■

iPad 5世代モバイル機器に向けたメモリ技術「Wide I/O」

●3Dダイ積層で広帯域を実現するWide I/O技術

　スマートフォンやタブレットなどモバイル機器向けの次々世代DRAM規格「Wide I/O」の全貌が見えてきた。Wide I/Oは、3Dダイスタッキング(積層)技術を使い、モバイル向けSOC(System on a Chip)チップの上にDRAMチップを重ねるメモリ技術。512-bit幅の広いメモリインターフェイスで12.8GB/sec以上の広帯域を実現する。2014年の市場導入(チップ自体は2013年にはレディになる)を目指しており、順調に行けば「iPad 5」や「iPhone 8」の世代のモバイルデバイスに使われる見込みだ。


Wide I/Oの概要

　Wide I/Oは、スマートフォン&タブレットの高性能化のカギを握る技術の1つだ。モバイルデバイスのSOC(System on a Chip)では、内蔵するCPUコア&GPUコアの急激な高性能化が進んでいる。2年に2倍以上のペース(チップを大型化して実現)で性能が上がるモバイルSoCにデータを供給する「ケモノを養う(feed the beast)」問題のために、メモリを広帯域化しなければならない。しかも、モバイルデバイスでは、消費電力を一定以下に納めることが求められている。そのため、PCのメモリ技術をそのまま持ってくることが難しい。

　こうした事情から、モバイル向けローパワーメモリは、現在、新メモリ技術の激戦区となっている。Rambusの「Mobile XDR DRAM」や「SPMT(Serial Port Memory Technology)」などが12.8GB/sec以上の帯域を狙うメモリ技術を発表している。そして、DDR DRAMなど“コモディティDRAM”の標準を策定してきたJEDEC(米国の電子工業会EIAの下部組織で、半導体の標準化団体)が発表したのがWide I/Oだ。Wide I/Oの試作チップは、Samsung Semiconductorが、2月のISSCC(IEEE International Solid-State Circuits Conference)で発表している。下のダイ写真はSamsungの試作だ。


ARM CPUとメモリの性能向上	SamsungのWide I/O試作チップ

●12.8GB/secの帯域を600mWの低消費電力で実現する

　JEDECは、先週アジア3カ国(韓国、中国、台湾)で行なったカンファレンス「JEDEC Mobile Memory Forum」で、Wide I/Oと「LPDDR3」の2つのメモリ技術について説明を行なった。LPDDR3もデュアルチャネル(x64)で12.8GB/secの帯域(シングルチャネルx32では6.4GB/sec)を予定しており、2013年に市場導入される見込みだ。JEDECは5月にCadenceがドイツで行なったカンファレンス「CDNLive! EMEA 2011」でもWide I/OとLPDDR3について説明している。

　Wide I/OとLPDDR3は帯域では同列に並ぶ。しかし、Wide I/Oは、LPDDR3よりもぐっと低い600mW程度(メモリコントローラとDRAM)の消費電力で12.8GB/secを実現し、パッケージサイズも薄く小さくすることができる。JEDECで、ローパワーメモリの規格化を行なうJC-42.6部会をまとめるSophie Dumas氏(Chairman of the JC-42.6 Subcommittee, STEricsson)は「Wide I/Oは現行のLPDDR2と同じ消費電力なら、2倍のメモリ帯域を実現できる」と説明する。転送レート当たりで比較するとWide I/O SDRが1GB/secあたり40mWの見込みであるのに対して、LPDDR2は約1GB/secあたり80mW、LPDDR3が同約70mWになるという。電力ではWide I/Oが圧倒的に有利だ。

バンド幅あたりの消費電力
PDF版はこちら


Wide I/Oのバンド幅	Wide I/Oの位置づけ	低消費電力のWide I/O

　トレードオフはコストで、2枚以上の積層DRAMに新しいシリコン貫通ビア(TSV:Through Silicon Via)技術が必要となるため、コストが高くつく。Wide I/Oで使うTSVはバンプ直径20umと、現在の製造技術の範囲だが、Wide I/Oを疑問視するSPMTなどは、TSVはメインストリームの製品に使えるほど成熟した技術にはなっていないと指摘する。そのため、JEDECはTSVをDRAM側に使わないWide I/Oソリューションも用意する。DRAMチップを1枚だけ積層する場合はDRAM側にTSVが不要となる。ただし、SoCチップ側には原則TSVが必要となる(使わない手段も想定できるが限定される)。

TSV技術の概要
PDF版はこちら

3Dのダイスタッキング
PDF版はこちら

4層のTSV技術によるWide I/O
PDF版はこちら

　また、Wide I/O DRAMチップ自身もLPDDR3に比べて、ダイオーバヘッド(ダイサイズの肥大化)がある程度できると見られる。そのため、よりチップ当たりのコストが低く(ただしデュアルチャネルでは2チップ以上が必要)、後方互換性を持たせやすいLPDDR系と棲み分けることになる。つまり、PC&サーバー向けDRAMと分離したローパワーDRAM自体も2系列に分かれる。

　メモリの広帯域化では、“狭くて速い”(狭インターフェイス幅で高転送レート)メモリと、“広くて遅い”(広インターフェイス幅で低転送レート)メモリの2路線で議論が繰り広げられて来た。JEDECは、ローパワーメモリでは、その両方に足をかけた道を選んだ。そして、モバイルメモリの2並列化は、今後しばらくの間継続するようだ。すでにワイド側はWide I/OのDDR版が、ナロー側はLPDDR系の後継候補の1つであるデュアルモードメモリが、JEDEC内部で議論されている。

将来のDRAMの方向性
PDF版はこちら

JEDECのモバイル向けメモリのロードマップ
PDF版はこちら

JEDECの将来のメモリの方向性
PDF版はこちら

●2年に2倍以上のペースで帯域を広げるスマートフォン&タブレットメモリ

　スマートフォン&タブレットのメインメモリは、過去2～3年で急速に帯域を広げている。モバイルデバイス向けの「LPDDR2」は、転送レート800Mbpsでシングルチャネル(x32)帯域は3.2GB/sec、1,066Mbpsでは4.3GB/secに達する。PCと比較すると、シングルチャネル(x64)のDDR2-400が3.2GB/secだ。しかし、ハイエンドのモバイルデバイスでは、2013～2014年に12.8GB/secが必要になると言われており、メモリ帯域はまだまだ広げる必要がある。PCで言えばデュアルチャネル(x128)のDDR2-800相当だ。

　ほんの1～2年前までは1.6GB/sec(シングルチャネルLPDDR 400Mbps)が一般的なモバイルデバイスのメモリ帯域の上限だったことを顧みると、いかに急ペースで帯域需要が伸びているかがわかる。PCで言えば、シングルチャネルDDR-200から、デュアルチャネルDDR2-800へと4年でジャンプしようとしている。

　現在、スマートフォン&タブレット向けのシステムメーカーは、犠牲を払ってメモリ広帯域化を実現している。それは、メモリの広インターフェイス化だ。例えば、AppleはiPadの「Apple A4」から、メモリインターフェイスをシングルチャネル(x32)から、デュアルチャネル(x64)へと広げた。

　現行製品では、デュアルメモリチャネル構成ではLPDDR2 800Mbpsで6.4GB/sec、1,066Mbpsで8.5GB/secとなる。しかしメモリチャネルの増加分、消費電力は倍増する。JEDECはLPDDR2 800Mbpsのx32シングルチャネルではメモリの電力消費は300mWだが、デュアルチャネルでは600mWに上がるとしている。電力の増大に目をつぶり、パフォーマンスを取った格好だ。


これまではデュアルチャネル化で高速化に対応してきた	Wide I/Oの必要性

　しかし、デュアルチャネル化は1回だけしか使えない手段で、これ以上メモリチャネル数を3～4チャネルへと増やすことはモバイルでは難しい。電力やピン数などに制約があるからで、タブレットはともかくスマートフォンで1Wを超えるメモリ電力は難しい。そのため、今後はメモリインターフェイスの帯域/電力の向上に頼るほか方法はない。

●GPUコアのアーキテクチャに影響を与えるメモリの進化

　こうした高速化ニーズを受けて、JEDECでは、これまでにない急ペースで新ローパワーDRAMの規格化を進めて来た。その結果がWide I/OとLPDDR3だ。どちらも、マジックナンバーである12.8GB/secを目指す。さらに、その後継メモリ規格では、2015年前後に次のマジックナンバーである25.8GB/sec以上を目指すと見られる。つまり、JEDECは2～3年でメモリ帯域2倍のペースを当面続けようとしている。25.8GB/secは、PCのデュアルチャネルDDR3-1600相当で、現世代のPCのメモリ帯域に近づく。PC&サーバー向けDRAMをはるかに凌ぐペースの高速化だ。

　モバイルメモリの急ピッチの広帯域化は、モバイルSoCのアーキテクチャにも大きな影響を与える。スマートフォン&タブレットでは、これまで、貧弱なメモリ帯域がグラフィックスパフォーマンスの大きなボトルネックになって来た。そのため、SoC内蔵GPUコアは、メモリ帯域を食わないタイリングアーキテクチャ(Imagination TechnologiesのPowerVR系やARMのMali系など)が多い。下の図が、グラフィックスパイプ中でボトルネックとなるアクセスの多いパスを示した図だ。しかし、帯域の制約が減れば、原理的にはPC向けGPUと同じイミーデットモードのGPUコア(Tegraなど)が有利になる。メモリがモバイル向けプロセッサコアアーキテクチャも変える可能性を秘めている。

GPUのパイプライン
PDF版はこちら

　もちろんいい話ばかりではない。Wide I/Oには高コストという弱点があり、デュアルチャネルLPDDR3にも高消費電力という弱点がある。例えば、RambusのMobile XDR DRAMならTSVを使わずコストを抑えながら、LPDDR3よりも低消費電力にWide I/Oと同レベルの帯域を実現できる。そのため、どの技術が主流になるか、まだ見えない。逆を言えば、広帯域メモリの選択肢が複数並んでいることになる。ハイブリッド構成という選択肢もある。

Wide I/Oシステムのアーキテクチャ
PDF版はこちら


Wide I/Oのシェア予測	モバイル向けDRAMのロードマップ	ハイブリッド構成のモバイルDRAMも考えられる

●シングルチップで12.8GB/secの帯域を実現

　Wide I/Oは、512-bit幅インターフェイスを200Mbps(266Mbpsの規格化もスタート)のデータ転送レートで駆動するメモリ技術。名前の通り、広いインターフェイス幅のメモリだ。従来のモバイルローパワーDRAMが16または32-bit幅だったのに対して、インターフェイス幅を16～32倍の512-bit幅に広げる。通常のパッケージではこれだけのメモリ幅は実現できないため、SoCとDRAMのダイを重ねて、2個のダイの間を小さなマイクロバンプで接続することで広インターフェイス幅を実現する。

モバイルメモリ向けのバス幅の比較
PDF版はこちら

Wide I/Oのパッケージング

　Wide I/Oでは、16倍のインターフェイスを、現在のLPDDR2の4分の1の低速で駆動することで、4倍の帯域を得る。広く遅いメモリだ。JEDECのDan Skinner氏(Director, Mobile DRAM Architecture, Micron Technology)は、Wide I/Oの大きな利点は「シングルダイでLPDDR2の4倍の帯域を実現できる点、そして、どのモバイルメモリよりも低消費電力である点、パッケージをより薄くできる点の3つ」と説明する。Wide I/Oのスペックは、まだ確定したものではなく、今後変更の可能性もあるとSkinner氏は指摘するが、基本のターゲットは変わらないはずだ。


Dan Skinner氏(Director, Mobile DRAM Architecture, Micron Technology)	Wide I/Oの技術概要

Wide I/Oの価格と性能の関係	Wide I/Oのアドバンテージ

　Wide I/Oのダイ当たり12.8GB/secの帯域は、現状のDRAMとしては最高レベルだ。モバイル向けでは現在のLPDDR2が800Mbpsでx32の場合、ワンチップで3.2GB/sec。PC向けメモリでは、DDR3-1600が一般的なx16の場合ワンチップで3.2GB/sec。ワンチップ当たりのメモリ帯域では、Wide I/Oは従来の4倍のメモリを実現できることになる。

　従来のメモリ技術は、多チャンネル化で帯域を広げる場合、DRAMチップを複数個接続しないと広帯域を実現できない。それに対して、Wide I/Oでは、単チップで広帯域を実現できる。LPDDR3との比較では、同じ12.8GB/secの帯域を実現するために、LPDDR3では2個のx32チップが必要であるのに対して、Wide I/Oでは1チップで済む。

チップあたりのバス幅
PDF版はこちら

　インターフェイス幅が広くなるとメモリアクセス粒度も上がってしまい、ピーク帯域が広くなっても実行帯域が下がってしまう。この問題を解決するため、Wide I/OではDRAMチップを4個のリージョン“スライス(Slice)”に切り分けている。Wide I/Oでは、DRAMチップの4分の1のリージョン「クアドラント(Quadrant)」をスライスと呼んでいる。各スライスが、それぞれ独立したメモリチャネルでコントローラに接続される。各チャネルは128-bit幅となり、Wide I/O DRAM全体では4チャネルで構成される。

●4チャネル構成にすることでグラフィックス性能を上げる

　構造上、Wide I/Oは128-bit幅で3.2GB/sec帯域のチャネルが4個束ねられたクアッドチャネルメモリインターフェイスと見ることができる。128-bit幅に分割したことは、メモリアクセス粒度は下がった。Wide I/Oはアクセスのバーストレングス(Burst Length)が最小で2なので、メモリアクセスの粒度は最小256bits(32Bytes)と抑えられる(LPDDR3のシングルチャネルと同じ)。各チャネルに接続されたスライスは、それぞれ4バンク構成なので、Wide I/O DRAMチップ全体では16 DRAMバンクとなる。

　Wide I/Oはシングルデータレートなので、プリフェッチ(メモリセルからの読み出し粒度)スペックは「Prefetch 1」だ。つまり、1サイクルに1n bit分のデータを読み出す。そのため、バーストレングスは1にできるはずだが、Wide I/Oではバーストレングスは最小で2になっている。これはコマンド/アドレス側の制約だとSkinner氏は説明する。バーストレングス1では、コマンド/アドレス側の供給が間に合わないと見られる。このことは、Prefetch 2で倍速のWide I/O DDRになってもバーストレングスは2に留まる可能性があることを示している。

DDRのプリフェッチ
PDF版はこちら

　256bitsアクセス粒度は、GPUコアが混在するシステムで効率良くアクセスできる粒度と言われている。実際、ディスクリートGPUではアクセス粒度を256bitsに抑えるようにメモリチャネルを構成している。グラフィックス処理では1ピクセルが8bits×4値(32bits)の場合が今も多く、それをクアッド(32bits×4)単位で扱う場合が多い。そのため、本来なら128bits粒度が望ましいはずだが、それは難しいので、現在は256bitsを粒度の目安としている。

　Wide I/Oはこうした点も考慮して256bits粒度にしていると見られる。一方、CPUコアの場合はキャッシュラインのサイズが効率的な粒度の目安となる。x86系CPUではキャッシュラインサイズは512bits(64bytes)だが、組み込みCPUでは256bits(32bytes)が多い。この面でもWide I/Oは256bitsの粒度に抑えた可能性がある。

Wide I/Oの電気的な仕様

●DRAMを4分割することでメモリと電力の効率を上げる

　Wide I/Oの4個のチャネルは、完全に独立した動作が可能で、同サイクルにそれぞれが別のオペレーションを実行できる。Skinner氏は「例えば、チャネルAがリード、チャネルBがパワーダウン、チャネルCがリフレッシュ、チャネルDがアクティベイトといったように、さまざまな動作を同時にできる」と説明する。4チャネルの制御は、SoCチップ側が行なう。

　4チャネル/スライスの独立動作は、省電力の面でも効果があると言う。まず、DRAMのメモリセルをセグメント化したため、1アクセス当たりのDRAMメモリセルの電力消費が減った。「(従来のDRAMのように)チップ全体にアクセスする代わりに、1個のクアドラントだけにアクセスすればいいので、コアの消費電力は最大で30～50%減らすことができるだろう」(Skinner氏)と言う。

　もちろん4個のスライスに同時にアクセスするなら、コアもフル稼働することになるが、それはコントローラ側でうまく制御すればピークの熱を抑えられるという。「4個のスライスを同時にリードにもできるが、多分、電力面ではこれはいいアイデアではない。ダイの熱の面を考慮して制御する必要がある」(Skinner氏)。

　効率的なWide I/O DRAMの4スライスの制御だが、これは独創的なアイデアではない。RambusがMobile XDR DRAMに実装した「Micro-Threading」でも、メモリコア内のバンク群がそれぞれ異なるrow/columnコマンドに対して独立して動作できるようになっている。効果も同じで、メモリコアからのメモリアクセス粒度を実質的に下げ、コアの電力効率を上げる。

　では、実際にWide I/Oを使ったスマートフォン&タブレット向けチップはどんな姿になるのか。次のコラムでWide I/Oのスペックのポイントとシステムを説明したい。