福田昭のセミコン業界最前線

「演算器内蔵メモリ」まで登場~AI時代に求められる記憶装置の姿

FMS展示会のSK hynixブース外観。AI(人工知能)を前面に押し出している。SK hynixが2024年8月8日付けで公表したFMS 2024の出展に関する資料から抜粋したもの

 次世代のメモリとストレージに関する世界最大のイベント「フューチャー・メモリ・アンド・ストレージ(FMS:Future Memory and Storage)」が2024年8月6日~8日(米国時間)に米国カリフォルニア州シリコンバレー地域の会議場「サンタクララコンベンションセンター」で開催された。前年(2023年)までの「フラッシュメモリサミット(FMS:Flash Memory Summit)」を改称したイベントであり、枠組み(講演会と展示会、サブイベント)そのものは変わっていない。

 恒例の基調講演では、久しぶりに半導体メモリ大手が出そろった。DRAMの大手ベンダーはSamsung Electronics、SK hynix、Micron Technologyの3社である。この3社はいずれも、フラッシュメモリ大手を兼ねる。フラッシュメモリ大手ではほかに、キオクシアとWestern Digitalが基調講演に参加した。これらの5社は、フラッシュストレージのベンダーでもある。

AIコンピューティングに向けた4つのDRAMソリューション

 本コラムでは前回、国内の大手フラッシュメモリベンダーのキオクシアによる基調講演と展示ブースの概要をご報告した。今回はフラッシュ大手兼DRAM大手のSK hynixによる基調講演と展示ブースの概要をご報告する。

 SK hynixはAI(人工知能)に向けたソリューションを今年は前面に打ち出してきた。基調講演と展示ブースの両方とも、AIに向けたメモリとストレージの最新製品をアピールした。前年の基調講演では321層の超高層3D NANDフラッシュを筆頭にNANDフラッシュの開発と量産に大半の時間を割いていた。今年は3D NANDフラッシュにはまったくふれていない。同じ企業とは思えないほど、講演内容が激変していた。

 基調講演の概要をご説明しよう。前半がAIに向けたDRAMとそのモジュール、後半がAIの課題とSK hynixのソリューション、という体裁になっていた。始めはコンピュータシステムのハードウェアがAIの普及によってどのように変化するかを示した。

 過去のシステムハードウェアは、CPUとDRAM、HDDという単純な構成だった。それが最近では、CPUとDRAMに、GPUとHBMあるいはGDDR系DRAMが加わり、HDDはSSDに置き換えられた。

 そして近い将来のAI向けハードウェアは、GPU、NPU、ASIC、PIM(Processing in Memory)がそれぞれ特定の演算処理を受け持ち、CXL(Compute Express Link)インターフェイスを介してCPUと接続するようになる、と述べていた。CPUはCXLインターフェイスを通じて拡張記憶(Memory Expansion)やストレージプール、メモリプールとも接続する。「アクセラレイテッド・コンピューティング」とも呼ばれるシステム構成だ。

AIの登場と普及によるコンピュータハードウェアの変化。左が過去(かなり古い)、中央が現在、右が近い将来。SK hynixが基調講演で発表したスライドから

 続いてAIコンピューティングに向けた4つのDRAMソリューションを示した。「HBM(」、「PIM」、「LPDDR5」、「CXL」である。HBMは広帯域かつ大容量のDRAMモジュール、「PIM」は演算回路を備えた広帯域DRAM、「LPDDR」は低消費電力かつ広帯域のDRAM、「CXL」は広帯域、大容量、不揮発性を備えたメモリモジュールと位置付ける。

AIコンピューティングに向けた4つのDRAMソリューション。SK hynixが基調講演で発表したスライドから

GPUの標準的な主記憶となったHBM

 SK hynixのHBMは、大手GPUベンダーのNVIDIAが高性能GPUモジュールの主記憶に採用したことで、注目を浴びることになった。AIの学習(「訓練」とも呼ぶ)と推論に使われるGPUモジュールは、GPUダイとHBMを同じ基板(インターポーザ)に近接して配置し、膨大な数の配線で接続してある。

 SK hynixのHBMが採用された大きな理由は、独自開発の低熱抵抗封止技術「MR-MUF(Mass Reflow-Molded Underfill)」だとされる。第3世代に相当する「HBM2E」でSK hynixが量産に採用した。

 HBMは2014年に開発されてから、継続して改良を重ねてきた。製品化されている最新の世代は第5世代に相当する「HBM3E」である。データ転送速度(入出力帯域)は最大1.2TB/sと高い。次世代の「HBM4」では入出力帯域を最大2.0TB/sと2倍近くに向上させる。

 HBM用DRAMシリコンダイの記憶容量は、HBM3EとHBM4とも24GbitとDRAMでは最大級を誇る。DRAMダイの積層数はHBM3Eが最大12枚(36GB)、HBM4が最大16枚(48GB)となる。HBM3Eモジュールは2024年3月に量産を開始した。HBM4モジュールの量産開始は2025年を予定する。

HBMの世代別データ転送速度とGPUモジュールの構造(左)、HBM用DRAMの記憶容量(右)。SK hynixが基調講演で発表したスライドから
SK hynixにおけるHBMの開発ロードマップ(2015年~2026年)。同社が基調講演で発表したスライドから

PIMがデータ転送と消費電力の効率を大幅に向上

 先述のように、AIコンピューティングに向けた2つ目のDRAMソリューションは「PIM」である。デジタル信号処理やマシンラーニングなどで良く使われる積和演算器(MAC)をDRAMセルアレイと混載したメモリだ。

 積和演算の結果をPIMとCPU/GPUと送受信するので、送受信するデータ量が少なくなる、CPU/GPUの作業負荷が減少するといった利点が生じる。GPUとHBMを組み合わせたモジュールと比べ、実質的なデータ転送速度は10倍以上、電力効率は7倍以上になるとする。

PIMの構成(左)とモジュール構成案(右)。SK hynixが基調講演で発表したスライドから

 3つ目のDRAMソリューションは「LPDDR5」だ。前世代のLPDDR4と比べてデータ転送速度を2倍に高め、電力消費を20%削減した。LPDDR5系では性能を向上させた「LPDDR5X」を2022年11月に開発した。入出力ピン当たりのデータ転送速度は8.5Gbit/sと高い。2023年1月には、さらに性能を高めた「LPDDR5T」(Tはターボの意味)を開発している。入出力ピン当たりのデータ転送速度は9.6Gbit/sに達する。

SK hynixが開発したLPDDR5系DRAMの例。同社が基調講演で発表したスライドから

CXLメモリモジュールがメモリ帯域の向上と記憶容量の拡大に貢献

 4つ目のDRAMソリューションは「CXL」である。CXLインターフェイスを備えたメモリモジュール「CMM(CXL Memory Module)」は、モジュールが内蔵するメモリによってさまざまな要求仕様に対応できる。講演では2つのモジュールを例示していた。

 1つはDDR5 DRAMを記憶媒体とする「CMM-DDR5」である。サーバー用主記憶の拡張メモリに向けた。広い帯域を重視するメモリであり、記憶容量はあまり大きくない。サーバー本体に格納する。

 もう1つはメモリコントローラとDRAMをまとめた「CMM-MDS(Managed DRAM Solution)」である。こちらは記憶容量を大きく確保することが目的となる。サーバー本体ではなく、外部にモジュールを数多く配置する。

CXLインターフェイスを備えたメモリモジュール「CMM(CXL Memory Module)」。左はモジュールの事例。右はサーバーシステムにおけるCMMの配置例。CMM-DDR5はサーバー本体、CMM-MDSはサーバーの外部に配置する(メモリプール)。SK hynixが基調講演で発表したスライドから

 なお展示会場のSK hynixブースでは、上記4つのソリューションを含めたDRAMとDIMMなどを展示していた。具体的にはHBM3Eの12枚積層品と8枚積層品、NVIDIAのGPU「H200」、8Gbit(4Gbitダイ×2枚)のGDDR6 DRAMをベースとしたAiM(Accelerator-in-Memory)、LPDDR5Tメモリ、DDR5のDIMM 3種、CMM-DDR5モジュールである。

SK hynixが展示会に出品したDRAM関連の製品。左の展示箱にはHBM3Eの記憶容量36GB品(左上)と同24GB品(右上)、NVIDIAのGPU「H200」(24GBのHBM3Eモジュールを6個搭載)を並べた。右の展示箱には左上から時計周りに8Gbit(4Gbitダイ×2枚)のGDDR6 DRAMをベースとしたAiM、LPDDR5Tメモリ(複数のDRAMダイを積層、記憶容量24GB、入出力幅64bit)、DDR5のMCR(Multiplexer Combined Ranks) DIMM(記憶容量は32GBと96GB)、CMM-DDR5モジュール(フォームファクタはE3.S)、DDR5 TALL MCR DIMM(記憶容量は128GB)をレイアウトしてある。SK hynixが2024年8月8日付けで公表したFMS 2024の出展に関する資料から抜粋したもの

AIコンピューティングの課題とSK hynixの対応策

 基調講演の後半は、AIコンピューティングの課題とSK hynixの対応策を説明した。対応策には時間軸の違いで2種類あり、1つは現行製品による対応策、もう1つは次世代品での対応策となっていた。

基調講演後半部の目次。(1)業界におけるAIコンピューティングの課題、(2)SK hynixの対応策(ソリューション、現在)、(3)SK hynixの対応策(ソリューション、次世代)の順番になっている。同社が基調講演で発表したスライドから

 始めに、AIコンピューティングのデータパイプラインとデータ入出力の特徴を述べた。データパイプラインはデータの「取り込み」、「データの準備」、「学習あるいは訓練」、「データの保存と復元」、「推論」の5段で構成される。

 「取り込み」はメモリを通じてストレージへのシーケンシャル書き込みとなる。「データの準備」も大半はシーケンシャルの読み出しと書き込みである。しかし「学習あるいは訓練」では、ほとんどのデータ移動がランダムアクセスとなる。「データの保存と復元」は、データ移動の大半がシーケンシャルの読み出しと書き込みである。そして「推論」は、ほとんどがシーケンシャル読み出しとなる。

AIコンピューティングのデータパイプラインとデータ入出力の特徴。SK hynixが基調講演で発表したスライドから

 AIサーバーあるいはAIデータセンターは、先述のデータパイプラインに沿ってマシンラーニングの訓練と推論を実行する。サーバーを収容するラックの許容電力と容積(搭載可能なSSDとプロセッサの台数)が限定されているのに対し、取り扱うデータセットの容量は急速に増えつつある。この結果、2014年から2024年までの10年間でデータセンターのラック当たりの平均消費電力は3倍に、プロセッサの動作時消費電力は5倍に増加したとする。

AI導入の課題。マシンラーニングのモデル生成を担うデータセンター(左)と、完成したモデルを実装した推論デバイス(右)の両方に異なる課題がある。SK hynixが基調講演で発表したスライドから

 またオンデバイスAIと呼ぶPCやスマートフォンなどへのAI実装は、AIモデルの取り込みに要する時間と、ユーザー体験の品質が課題となる。SSDに格納してあるAIモデルをDRAMに移動するための時間は1秒以内が望ましい。またAI PCの演算処理能力(TOPS)は今後2年で1.5倍に高まる。このため、従来よりも高い性能のSSDが要求される。

現世代のAIソリューションはPCIe Gen5 SSDや大容量QLC SSDなど

 これらの課題に対処するため、現世代では以下のような製品を提供しつつある。AIデータセンター向けには、PCIe Gen5インターフェイスの高速エンタープライズSSD(eSSD)「PS10x0」とQLC方式のNANDフラッシュを搭載した記憶容量が61TBと大きなエンタープライズSSD「D-P5336」を用意した。オンデバイスAI向けには、PCIe Gen5インターフェイスの高速クライアントSSD(cSSD)「PCB01」と、ゾーンの概念を取り入れたUFS「Zoned UFS」を販売する。

現世代のAI向けフラッシュストレージ。左はAIデータセンター向けのSSD、右はオンデバイスAI向けのSSDとUFS。SK hynixが基調講演で発表したスライドから
PCIe Gen5インターフェイスの高速エンタープライズSSD(eSSD)「PS10x0」の概要。SK hynixが基調講演で発表したスライドから
QLC方式のNANDフラッシュを搭載した記憶容量が61TBと大きなエンタープライズSSD「D-P5336」の概要。インターフェイスはPCIe Gen4.0およびNVMe 1.4c。最大容量は61.44TBとニアラインHDDを超える。SK hynixが基調講演で発表したスライドから
PCIe Gen5インターフェイスの高速クライアントSSD(cSSD)「PCB01」の概要。インターフェイスはPCIe Gen5.0およびNVMe 2.0c。最大容量は2TB。SK hynixが基調講演で発表したスライドから
ゾーンの概念を取り入れたUFS「Zoned UFS」の概要。インターフェイスはUFS 4.0。最大記憶容量は1TB。ゾーンのタイプはSWR(Sequential Write Required)タイプ。ゾーンの最大数は6ゾーン。SK hynixが基調講演で発表したスライドから

次世代のAI向けメモリは演算機能内蔵へ

 そして次世代のAIソリューションでは、演算機能を内蔵したメモリと、演算機能を内蔵したストレージを提供していく。従来のフラッシュストレージでは、PCIe Gen6インターフェイスのSSD、UFS 5.0を開発する。

コンピュータにおける記憶階層とSK hynixが提供するAIソリューション。SK hynixが基調講演で発表したスライドから
PCIe Gen6インターフェイスのSSD(左)とUFS 5.0(右)の性能比較例。Gen6では前世代(Gen5)と比べ、読み出し性能が2倍、書き込み性能が1.5倍、電力効率が2倍に向上する。UFS 5.0は前世代(UFS 4.0)と比べ、ランダムアクセス性能が5倍、電力効率が40%ほど高まる。SK hynixが基調講演で発表したスライドから

 演算機能を内蔵したメモリでは、オンデバイスAIに向けたAiMを用意する。LPDDR DRAMと演算回路を混載しており、一般行列とベクトルの乗算(GEMV:General Matrix-Vector Multiplication)を高速に実行する。なおGEMVは生成AI(特に大規模言語処理)で大量に使われる演算であり、この演算におけるメモリアクセスが処理速度のネックとなっている。

LPDDR DRAMと演算回路を混載したメモリ。GEMVを高速に実行する。FC(Fully Connected)のニューラルネットワーク層を演算する速度は7.3倍に向上し、遅延時間は86%減と短くなる。MHA(Multi Head Attention)の処理速度は5.7倍に向上し、遅延時間は83%減と短くなる。いずれもLPDDR5T DRAMとの比較。SK hynixが基調講演で発表したスライドから

 演算機能内蔵メモリにはもう1つ、CXLインターフェイスを備えたモジュール「CMS(Computational Memory Solution)」がある。データ分析の処理をCPUからCMSに移行することで、CPUの負荷を下げ、処理性能を高め、消費エネルギーを削減する。

CXLインターフェイスを備えたデータ分析用演算機能付きメモリモジュール「CMS(Computational Memory Solution)」の概要。CMSによってデータ分析の性能を80%向上させ、CPUの作業負荷(使用率)を91.4%から15.9%に低減し、消費エネルギーを22%下げる。SK hynixが基調講演で発表したスライドから

 演算機能を内蔵したストレージでは、オブジェクトベースの計算ストレージ(OCS:Object based Computational Storage)を例示した。オブジェクト(ID、メタデータ、データ)を格納し、フィルタリングの機能を備える。ホスト側でフィルタリングする代わりに、ストレージ側でオブジェクトをフィルタリングする。データ分析の実行時間を短縮するとともに、データの移動回数(ホストとストレージの間)を大幅に削減できる。

オブジェクトベースの計算ストレージ(OCS:Object based Computational Storage)。左がOCSの概要。オブジェクトとともに、フィルタリング機能をストレージに載せた。右は性能比較。データ分析の実行時間が3.8分の1に短くなるとともに、データの移動量(コンピュートノードとストレージの間)が100分の1に減少した。SK hynixが基調講演で発表したスライドから

321層の3D NANDとQLC方式を組み合わせた2TbitのNANDフラッシュを展示

 なお基調講演ではふれなかったが、展示会では前年に披露した321層の3D NANDフラッシュ(V9 3D NAND)を控えめに展示していた。TLC方式の1Tbitシリコンダイを作り込んだウエハーと、そのパッケージ封止品、それからQLC方式を採用して大容量化した2Tbitダイのパッケージ封止品、TLC方式で高速化した1Tbitダイのパッケージ封止品である。

321層の3D NANDフラッシュ(V9 3D NAND)の展示。左がTLC方式の1Tbitシリコンダイを作り込んだウエハー(ここには一部しか見えていないがウエハー全体を展示していた)。右上は最初に開発したTLC方式の1Tbitダイ(従来パッケージに封止)、右中はQLC方式の採用によって記憶容量を2Tbitに拡大したメモリ(小型パッケージに封止)。右下はTLC方式でも入出力データの最大速度を3.6Gbit/sに高めたメモリ(右上の1Tbit品は最大2.4Gbit/s)。SK hynixの展示ブースで筆者が2024年8月7日に撮影したもの

 同じFMSでもカバー範囲を広げたことで、SK hynixはAIソリューションを前面に押し出してきた。ほかの企業も、AI用途を主眼に置いた開発や製品などをアピールしているところが多い。「フラッシュ」と「SSD」のイベントから「ハードウェア」のイベントへとFMSは変貌したように感じた。先行きが楽しみだ。