イベントレポート

キオクシアとWD、超高速フラッシュ「XL-FLASH」の技術概要をISSCCで公表

コンピュータの記憶階層と「ストレージクラスメモリ(SCM : Storage Class Memory)」。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から

 キオクシアとWestern Digital(以降はWDと表記)は、共同で開発した超高速3D NANDフラッシュメモリ技術「XL-FLASH」の概要を半導体回路技術の国際学会ISSCC 2020(2020年2月16日~20日に米国サンフランシスコで開催)で2020年2月18日に公表した(講演番号13.5)。

 3D NANDフラッシュメモリ技術(以降は「3D NAND技術」と表記)は、きわめて大きな記憶容量(記憶密度)と非常に低い製造コストをを両立させた不揮発性メモリ技術である。記憶容量当たりの製造コストは半導体メモリのなかでもっとも低く、シリコンダイ当たりの記憶容量は半導体メモリのなかでもっとも大きい。

 ただし3D NAND技術には、書き込みと読み出しの遅延時間(レイテンシ)がきわめて長いという弱点がある。このためコンピュータの記憶階層では、DRAM DIMMの主記憶と3D NANDフラッシュのSSDの間に、性能の大きなギャップが存在する。このギャップを埋める記憶階層として「ストレージクラスメモリ(SCM : Storage Class Memory)」が提案され、すでに一部の半導体メーカーが実用化している。

 SCMに要求される仕様は、記憶容量当たりの製造コスト(シリコン面積)がDRAMよりも低く(小さく)、シリコンダイの記憶容量がDRAMよりも大きいこと。この要求を原理的には満たせるメモリ技術としては、IntelとMicron Technologyが共同開発した「3D XPointメモリ」(Intelの製品ブランド名は「Optane」)と、Samsung Electronics(以降はSamsungと表記)が開発した「Z-NAND」がある。いずれも、高速SSDなどのストレージ製品として商品化されている。

 「3D XPointメモリ」は、次世代不揮発性メモリ技術の「相変化メモリ(PCM)」と3次元クロスポイント構造を組み合わせた高速大容量不揮発性メモリである。「Z-NAND」は3D NAND技術をベースに、メモリセル当たりの記憶ビットを1ビットに減らす(SLC方式)ことなどでデータの書き込みと読み出しを高速化した。

 キオクシア(当時は「東芝メモリ」)が2019年8月に概要を発表したSCM向け高速フラッシュ技術「XL-FLASH」も、ベースは3D NAND技術である。メモリセル当たりの記憶ビットを1ビットに減らすとともに、メモリセルアレイを16個と数多くのサブアレイに分割することなどの工夫で、高速な書き込みと読み出しを実現した。

「XL-FLASH」の概要。Toshiba Memory America(当時、現在はKIOXIA America)の2019年8月5日付けニュースリリースを抜粋したもの

アクセス時間は既存の3D NANDフラッシュの10分の1以下に

 「XL-FLASH」は、96層の3D NAND技術をベースとする。開発したシリコンダイの記憶容量は128Gbitで、3D XPointメモリと同等、Z-NANDの2倍に相当する。

 書き込みの遅延時間は75μs、読み出しの遅延時間は4μsと、3D NANDフラッシュとしては非常に短い。同じ96層の3D NAND技術とTLC(3bit/セル)方式を組み合わせた512Gbitのフラッシュメモリ(東芝メモリとWDが2018年2月のISSCCで共同発表したもの)は、書き込み遅延時間が平均で561μs、読み出し遅延時間が58μsであり、いずれも「XL-FLASH」の10倍以上と長い。

 Samsungが開発した「Z-NAND」メモリは書き込み遅延時間が100μs、読み出し遅延時間が3μsだった。書き込み遅延時間は「XL-FLASH」メモリが0.75倍と短く、読み出し遅延時間は「XL-FLASH」が1.33倍と長い。

Z-NAND(左)、XL-FLASH(中央)、TLC方式の3D NANDフラッシュ(右)のおもな性能を比較。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から
「XL-FLASH」技術で開発したシリコンダイの概要(左)とシリコンダイ写真(右)。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から

メモリセルアレイを16枚と数多くのプレーンに分割

 講演では、過去に開発した96層の3D NAND技術とTLC(3bit/セル)方式を組み合わせた512Gbitのフラッシュメモリ(TLCメモリ)と、XL-FLASHメモリのシリコンダイ写真を比較してみせた。すでに述べたようにTLCメモリとXL-FLASHメモリでは、メモリセルアレイのレイアウトが大きく違う。

 TLCメモリはメモリセルアレイを高い密度で詰め込むことを重視しているため、サブアレイの分割数が2枚(2プレーン)と少ない。プレーン数が少ないとワード線とビット線が長くなり、アクセスは遅くなる。これに対してXL-FLASHメモリではサブアレイの分割数が16枚(16プレーン)と多い。プレーン数が多いのでワード線とビット線は短くなり、アクセスは速くなる。

 そしてTLCメモリはメモリセルに多値記憶の3bit/セル(TLC方式)を使っているのに対し、XL-FLASHメモリはメモリセルが1bit/セル(SLC方式)なので書き込みと読み出しがともに単純な回路で済む。このため、遅延時間が短い。

 ただし当然ながら、XL-FLASHメモリの記憶密度(シリコン面積当たりの記憶容量)は低くなる。TLCメモリは512Gbitを86.13平方mmのシリコン面積で実現しているのに対し、XL-FLASHメモリはやや大きな96.34平方mmのシリコン面積であるにも関わらず、記憶容量は4分の1の128Gbitにとどまる。TLCからSLCへの変更であれば、単純には記憶容量の減少は3分の1で済むはずだ。しかし実際にはアクセスを高速化するレイアウトと回路により、記憶密度はさらに低くなっている。

シリコンダイのレイアウトを既存の3D NANDフラッシュと比較。左が96層の3D NAND技術とTLC(3bit/セル)方式を組み合わせた512Gbitのフラッシュメモリ(TLCメモリ)。256Gbitと大きなサブアレイ(プレーン)を2枚レイアウトしている。このため、シリコンダイに占める周辺回路の割合が小さい。右が96層の3D NAND技術で開発した128GbitのXL-FLASHメモリ。16Gbitと小さなサブアレイ(プレーン)を16枚と数多く配置した。シリコンダイに占める周辺回路の割合がかなり大きい。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から

SSDのIOPS向上の妨げとなるNANDフラッシュの長い遅延時間

 XL-FLASHメモリが想定する用途は、超高速のSSDである。SSDの性能を測るおもな指標は2つ。スループットと入出力速度(IOPS : Input Output per Second)だ。既存の3D NANDフラッシュを使ったSSDは、スループットはかなり高いものの、IOPSはあまり高くない。読み書きするデータが小さいと、IOPSはきわめて低くなってしまう。

 3D NANDフラッシュは、ランダム読み出しアクセスの遅延時間(「ランダム読み出し遅延時間(RRL : Random Read Latency)」が長い。このことがIOPSの向上を妨げている。SSDは高速化のためにバッファメモリ(おもにDRAM)を内蔵している。バッファメモリはスループットの向上と比較的大きなデータのIOPS向上には効果があるものの、細かなデータのランダムな読み書きが連続するような使い方では、ほとんど効力を発揮しない。

SSDの読み出し動作(左)とアクセス時間の内訳(中央)、IOPSとキューの深さ(扱うデータの大きさ)の関係(右)。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から

ワード線の遅延時間を20分の1に短縮

 そこでXL-FLASHメモリでは、ランダム読み出し遅延時間(RRL)を短くするとともに、読み出しの遅延時間を延ばすいくつかの問題を回路の工夫で対処することで、ランダム読み出しの性能を向上させた。また書き込み動作でも、プログラムの回路を工夫することで書き込みの遅延時間を短くしている。

 読み出し動作ではまず、メモリセルアレイを16枚のプレーンに分割することで、ワード線の遅延時間をおよそ20分の1と大幅に短縮した。さらに、サブアレイ(プレーン)の接地電位の変動に合わせて電源電位を変動させることで、安定な読み出し動作を確保した。また、ワード線とビット線の電位を温度補償する回路では温度データ(コード)を読み出しコマンドと並行して自動的に発行することで、温度データの発行を待つ時間を省いた。

読み出し動作におけるワード線の電圧波形。2プレーンから16プレーンにサブアレイの分割数を増やすことでワード線を短くし、ワード線の負荷容量を減らした。その結果、ワード線の遅延時間(レイテンシ)を5%(20分の1)に短縮できた。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から

短いプログラム時間と狭いしきい電圧ばらつきを両立

 書き込み動作では、書き込み(プログラム)の準備動作(PP : Program Preparation)を並列に実行することで、PPの所要時間を従来の3分の1に減らした。またプログラムとベリファイ(検証)の動作シーケンスを工夫することで、短いプログラム時間と狭いしきい電圧ばらつきを両立させた。具体的には、4回のプログラム電圧パルスを入力し、2回目と3回目のプログラム電圧パルス入力後だけ、ベリファイを実行した。

書き込み(プログラム)の動作シーケンス。上が従来のプログラムとベリファイ(検証)のシーケンス。プログラム時間は200μs~300μsと長い。下が今回(XL-FLASHメモリ)のプログラムとベリファイのシーケンス。PPの所要時間を3分の1に短くしたことと併せ、プログラム時間を75μsに短縮した。キオクシアとWDがISSCC 2020で共同発表したスライド(講演番号13.5)から

 こうしてキオクシアとWDは、SamsungやIntelとは異なるアプローチで高速フラッシュを作り出した。他社製品と同様、早期の製品化に期待したい。