後藤弘茂のWeekly海外ニュース

PCとのギャップを埋めるモバイルメモリの急発展



●12.8GB/secから25.6GB/secが次のメモリ帯域ターゲット

 スマートフォン&タブレット向けの低電力モバイルメモリが急発展しつつある。JEDEC(米国の電子工業会EIAの下部組織で、半導体の標準化団体)では、現在のローパワーメモリLPDDR2の後継として「LPDDR3」と「Wide I/O」の2種類のメモリを規格化している。

 Wide I/Oは3Dダイスタッキング(積層)技術を使い、モバイル機器向けSOCの上にDRAMチップを重ねるメモリ技術だ。512-bit幅の広いメモリインターフェイスで12.8GB/sec以上の広帯域を実現する。LPDDR3は、広帯域で低消費電力だが高コストのWide I/Oを補完する規格で、現在のLPDDR2を発展させたものだ。

JEDECのモバイルメモリバス幅の比較(チップあたり)
PDF版はこちら

 この他、JEDEC外ではRambusの「Mobile XDR DRAM」が超高速メモリとして開発されている。シリアルメモリを開発するSPMT(Serial Port Memory Technology)は、JEDECの次々世代メモリ(デュアルモードメモリ)に同社の技術が採用されると説明する。

 これらの新モバイルメモリ技術は、メモリ帯域としては12.8GB/secから将来は25.8GB/secまでを視野に入れている。これは、スマートフォン&タブレットがデスクトップPC並の広メモリ帯域を持つことを意味する。モバイルメモリの急激な変化は、スマートフォン&タブレットのアーキテクチャにも大きな影響を与えると推測される。従来、最大の制約だったメモリ帯域が緩むことで、スマートフォン&タブレットのSOC(System on a Chip)はパフォーマンスを飛躍させることができるようになる。

メモリバス幅の進化ロードマップ

●広くて遅いか、狭くて速いか

 こうしたモバイルメモリの動向は、スマートフォン&タブレットに留まらず、将来的にはPCやサーバー、GPUのメモリにも影響を与える。PC&サーバーでも、ヘテロジニアスコア化によるメモリ帯域ニーズが高まっており、メモリの改革が必要になるからだ。

 モバイルメモリでは、Wide I/Oの“広くて遅い”メモリと、Mobile XDRやSPMT、デュアルモードメモリの“狭くて速い”メモリの2方向に分化しつつある。効率よく高速化しようとすると、この2方向のアプローチのどちらかになるからだ。同じセオリーはPCのメインメモリとグラフィックスメモリにも当てはまる。PC&サーバーでも、電力消費を抑えつつ、帯域を広げることが求められている。そのため、モバイルメモリの進化は、今後のPC&サーバーメモリの進化を予測するための重要な要素となる。

DRAMの方向性
PDF版はこちら

 ただし、モバイルとPC&サーバーには大きな違いもある。Wide I/Oで実現される広くて遅いメモリでは、シリコン貫通ビア(TSV:Through Silicon Via)技術がカギとなる。Wide I/Oでは、CPUコアやGPUコアを集積したSOC(System on a Chip)側にTSVで穴を開けることを前提としている。しかし、IntelやNVIDIAなどのハイパフォーマンスプロセッサベンダーは、パフォーマンスCPUやGPUにTSVを使うことは、歩留まりやコストの面で現実的ではないと言う。

 モバイルSoCではTSVは許容されるかも知れないが、PC&サーバーのプロセッサではTSVはまだ難しいという。そのため、PC&サーバーでは広くて遅いメモリを使う場合も、CPUやGPUにはTSV技術を使わずに、DRAM側だけにTSVを使う方向へと向かう。Wide I/Oとはアプローチは異なってくる。

 とはいえ、JEDECでは「全てのメモリはTSVへと向かっている」(Joe Macri氏 JC42.3 Committee for DRAM, Jedec)と見ており、JEDECメモリに関してはTSVがどの領域でもカギとなることは間違いがない。そして、Wide I/Oはその先駆となる。逆を言えば、Wide I/Oが成功を収めることができなければ、他のメモリでもTSVの活用が遅れることになる。“広くて遅い”メモリと“狭くて速い”メモリのどちらが主流になって行くのか、まだわからない。

モバイルメモリバス幅の比較(チップあたり)
PDF版はこちら

●PC&サーバーメモリに急激に追いつくモバイルメモリ

 以前の記事でも説明したが、ほんの1~2年前まで、スマートフォン&タブレットのメモリはLPDDR 400Mbpsでx32、1.6GB/sec程度の帯域が一般的な上限だった。デスクトップPCに置き換えると、DDR-200のシングルチャネル(64bits)と同じメモリ帯域だ。つまり、2010年前半までの一般的なスマートフォン&タブレットは、2001年頃のデスクトップPCと同レベルのメモリ帯域しか備えていなかった。メモリ帯域では10年近く遅れていたことになる。

 下の図は、JEDECメモリを中心にモバイルメモリの転送レートと帯域を示したものだ。以前作成した図との違いは、JEDEC以外のメモリを加えたことと、右端の縦軸にデスクトップPCメモリを比較用に加えたこと。この図を見ると、モバイルメモリの帯域が、PCメモリの階層を急速に駆け上がって行くことがわかる。

モバイルメモリの転送レートと帯域の進化
PDF版はこちら

 昨年(2010年)前半以降は、LPDDRのデュアルチャネル(64bits)化やLPDDR2の投入で3.2GB/sec前後のメモリ帯域が現実のものになり始めた。図でわかる通り、この帯域は、PCのシングルチャネルDDR-400と等しい。そして、今や、デュアルチャネルLPDDR2 800~1,066Mbpsによって6.4~8.5GB/sec帯域も可能になっている。PCで言えば2004年頃のデュアルチャネルDDR-400(6.4GB/sec)に等しいメモリ帯域に達した。

 そして、2~3年後にはJEDECの新メモリLPDDR3とWide I/Oによって12.8~17.1GB/secのメモリ帯域が可能になる。JEDECメモリだけではない、RambusのMobile XDRではシングルチャネル(16bits)で6.4G~8.5B/sec、デュアルなら12.8~17.1GB/secが実現できる。この世代の帯域をシングルチャネルLPDDRと比較すると約8倍となり、PCでは2006年頃のデュアルチャネルDDR2-800メモリに相当する。

 さらにその先には25.6GB/secを視野に入れたWide I/O DDRなども控えている。同レベルの帯域では、JEDECはLPDDR3の後にデュアルモードの高速メモリも規格化する。25.8GB/secのメモリ帯域は、PCではデュアルチャネルで最高速のDDR3-1600メモリに匹敵する。

 つまり、PCが10年かけて広げてきたメモリ帯域を、モバイルデバイスは6~7年の短期間で実現しようとしている。異常とも言える、急激なメモリ帯域の拡張が、現在、モバイル機器では進行している。

●TSVを使うことでチップの直スタックを可能に

 Wide I/Oは、チップ当たり512-bit幅の極めて広いインターフェイスで、コントローラ側のSoCダイとDRAMダイを直接結ぶ。従来の一般的なモバイルDRAM(チップ当たり16または32-bit)の16倍のインターフェイスに当たる。広いインターフェイスを、200MHz程度の低速で駆動することで、消費電力を抑えながら広帯域化を実現する。最初のWide I/O SDRのインターフェイスはシングルデータレート(SDR)となる。

Wide I/OのアーキテクチャWide I/Oのパッケージング

 JEDECのDan Skinner氏(Director, Mobile DRAM Architecture, Micron Technology)は、Wide I/Oの大きな利点は「低電力とパフォーマンスの両面で最高のパフォーマンスポイントにあること。シングルダイでLPDDR2の4倍の帯域を実現できる点、そして、どのモバイルメモリよりも低消費電力である点、パッケージをより薄くできる点だ」と説明する。特に、帯域当たりの電力が他のメモリ技術より低い点は、広帯域を切に必要とするハイエンドのスマートフォン&タブレットのベンダーにとって最大の利点だ。

Wide I/Oのアドバンテージ

 Wide I/Oの最大のポイントは、チップ同士を直に重ねて、ダイの間を小さなマイクロバンプで接続する点にある。通常、半導体チップはシリコンのサブストレートの上にトランジスタと配線を形成し、その上に基板と接続するためのバンプを生成する。そのため、チップは片方の面にしかインターフェイスを持つことができず、チップの裏表両面に別なチップを直に接続できない。

 そこで、シリコン基板に穴を開けてチップのシリコン基板側にもバンプを配置できるようにする技術が登場した。それがTSVだ。TSVを使うと、チップの裏表の両面にインターフェイスを設けることができる。そのため、チップを多数重ねることが可能になる。また、信号バンプを小さく稠密にして、バンプ数を増やすことでインターフェイス幅を広げ、チップ間の配線長を最小にすることで電力消費を抑えることができる。

Wide I/Oの仕組み
PDF版はこちら
3Dのダイスタッキング技術
PDF版はこちら
TVSの概要

 今までは、チップ間を基板上の配線やワイヤ(モバイルではワイヤボンディングによるスタックも多い)を経由して接続していた。I/Oピンのキャパシタンスは大きく、配線は長かった。しかし、Wide I/Oでは各I/Oピン自体のキャパシタンスが小さい上に、配線も短い。4枚のDRAMチップをスタックした場合も、重ね合わせたパッケージ厚は1mmに過ぎず、TSVを経由した配線長もその範囲に収まる。

 ちなみに、JEDECではWide I/Oのマイクロバンプのために「マイクロピラー(Micro Pillar)」という新語を作った。Wide I/Oのバンプアレイは「MPGA(Micro Pillar Grid Array)」と呼ばれる。

●帯域当たりの電力を半分に減らすWide I/O

 Wide I/Oの目的は電力をLPDDR2と同レベルに保ちながら、メモリ帯域を倍(対デュアルチャネルx64 LPDDR2)に引き上げることにある。そのため、Wide I/Oでは、LPDDR2に対して、メモリ帯域当たりの電力消費を半分に減らす必要がある。LPDDR2の電力効率は毎秒80mW/GBなので、Wide I/Oは毎秒40mW/GBをターゲットとしている。

 そのため、Wide I/OはI/Oバンプのキャパシタンスを減らし、配線長を短くすることで、電力消費を抑える。その結果、Wide I/O SDR世代では40mW/GB/secを達成できるという。しかし、Wide I/Oのインターフェイスは、それ以外の面では意外と保守的だ。シングルエッジの転送で、I/O信号の電圧振幅も低電圧化せずに、コアとI/Oの電圧はLPDDR2と同じ1.2Vに留めている。「その他にも、多くの仕様がLPDDR2と似ている」とSkinner氏は説明する。

Wide I/Oの消費電力
JEDECのモバイルメモリの消費電力比較
PDF版はこちら
同等の消費電力で実現できる性能

 低消費電力を武器とするWide I/Oにも課題はある。第1の壁は、まだ成熟し切っていないTSV技術のために、Wide I/Oソリューションが高コストにつく可能性があること。「Wide I/Oのトータルシステムコストは、バックプロセッシングも含めると、旧来のテクノロジよりどうしても高コストになる」とSkinner氏も認めている。Wide I/Oは、登場時点では高いが広帯域で低消費電力のメモリソリューションとなり、他のメモリと棲み分けることになりそうだ。

 問題はコストだけではない、SoCとDRAMのTSVによるスタッキングを前提としているため、製造工程とそのビジネスモデルに変革が必要になるという。

 「Wide I/Oでは、新しいビジネスモデルが必要となる。メモリウェハをメモリベンダーから供給してもらい、新しいレベルのエンジニアリングでSoCダイにスタックする必要がある。メモリ企業とSoC企業の間に、新しいビジネスモデルを確立しなければならない」(Skinner氏)。

●Wide I/O登場までのギャップを埋めるためのLPDDR3

 Wide I/Oでは、DRAMの熱も問題となる。「もう1つの課題は熱だ。携帯電話やタブレットでは、ほとんどエアフローがゼロの環境となる。帯域を上げるにつれて熱が上がると、その熱を効率的に排熱しなければならなくなる。今後、帯域が上がって行くと熱が問題となるだろう」とSkinner氏は予言する。

 ちなみに、TSVでは、シリコンもTSVの銅配線もともに熱伝導性がいいため、TSV接続されたモジュール全体に熱が伝導しやすいと言われている。しかし、DRAMにとって熱は大敵で、SoCからの熱が伝搬することでDRAMチップの温度が上がると、安定性を保つために対策が必要となる。「DRAMではメモリセルの物理によって、温度が上がればメモリセルからのリーク電流(Leakage)が増える。そのため、温度に応じてリフレッシュを頻繁に行なわなければならなくなる。Wide I/Oでは温度によってリフレッシュの頻度を変えている。25~85度の通常の温度では通常のリフレッシュだが、85度以上になると10度上がる毎にリフレッシュ頻度を2倍にしている」(Skinner氏)。

 Wide I/Oのもう1つの問題は投入時期だ。船頭の多いJEDECの常としてWide I/Oの市場投入時期についても、人によって意見が分かれる。早ければ2013年に投入できるという声もある。しかし、JEDECのカンファレンスで説明を行なったMicronのSkinner氏は、Micronでは2014年が量産時期だと見ているとしていた。ここで、問題は、2014年だと12.8GB/secがモバイルデバイスに必要と言われている2013年に間に合わないことだ。

 そのため、JEDECはWide I/Oの後からLPDDR3の規格化をスタートさせ、Wide I/Oより前に投入できるように規格をまとめ上げた。「JEDECはWide I/Oの規格化をスタートさせたが、LPDDR2との間にギャップが空いてしまった。そこで、Wide I/Oを投入できるまでのギャップを埋めるためにLPDDR3を規格化した」とJEDECのSophie Dumas氏(Chairman of the JC-42.6 Subcommittee for Low Power Memories and Memory Standardization Manager)は説明する。

Wide I/O投入前にLPDDR3を規格化

 もっとも、LPDDR3を投入した目的は、時期的なギャップを埋めるだけではなく、コストや技術難度のギャップも埋めるためでもある。LPDDR2からの進化的アプローチで策定するLPDDR3で、Wide I/Oの飛躍に乗り切れないニーズを埋めるという目的もある。「Wide I/Oは挑戦的で革新的なアプローチだ。そのため、我々はより進化的なアプローチも用意した。それがLPDDR3だ」とSkinner氏は言う。ちなみにコスト面ではWide I/OはデュアルチャネルのLPDDR3よりもさらに高いとJEDECでは見積もっている。

各種メモリのコスト比較

●Wide I/Oは266Mbps、17.1GB/secへと高速化

 JEDECのWide I/Oの最初のスペックは最高200Mbpsとなる。しかし、すでに266Mbpsへの高速化が計画されている。Skinner氏は次のように説明する。

 「Wide I/Oの最初のデバイスが登場していないのに、すでに業界からは200Mbpsではまだ速度が不足しているという声があがっている。そのため、266MbpsのスピードレートのWide I/Oの規格策定をスタートさせようとしている。Wide I/O 266では17.1GB/secの帯域となる。実際に、12.8GB/secでは不足で、17.1GB/secの帯域が必要だと指摘されている」。

 Wide I/O SDRでは266Mbpsが実質的な上限になると推測される。これは、メモリセルのパフォーマンスの制約があるからだ。DRAMのメモリコアのパフォーマンスは、過去10年間、それほど向上していない。DDRの頃はメモリコアを200MHzで駆動させるのが上限だったが、今は266MHzに上がっている。しかし、インターフェイスほど目覚ましく向上していない。

 メモリセル自体のパフォーマンスは低いため、DRAMではメモリインターフェイスへのデータのフェッチに「Prefetch」手法を使っている。セルから並列にデータを読み出すことで、データ転送レートを稼いでいる。

 例えば、標準的なLPDDR2はPrefetch 4(LPDDR2にはPrefetch 2のスペックもある)で4nビットのデータを1クロックで読み書きすることで、メモリコアの4倍のバス転送レートを可能にしている。同様にLPDDR3はPrefetch 8で8倍速となる見込みだ。LPDDR2で1,066Mbps、LPDDR3で2,133Mbpsを製品化するということは、メモリコアを266MHzで駆動してもDRAMベンダーは充分な歩留まりを達成できることを意味している。

 Wide I/Oの場合はSDRであるため、メモリコアの動作速度とインターフェイスの転送レートは一致している。最初に規格化されるWide I/O 200Mbpsは、コアが200MHzで動作することになる。他のDRAMを見ると、現在のメモリコアは266MHzで駆動できるので、DRAMベンダーはWide I/O SDR 266Mbpsまでは一定の歩留まりで製品化できることになる。

セルとIOの周波数の関係
PDF版はこちら
Prefetchの採用
PDF版はこちら