ニュース

古いDDR4で現行サーバーのメモリ拡張、低コストで性能アップ。MetaがCXLで実現

Vistara

 Meta Platformsとテキサス大学オースティン校は、データセンター向けのインターコネクト規格であるCompute Express Link(CXL)を使って、旧来のDDR4メモリを現行サーバーの拡張メモリとして再利用できるようにするソリューション「Vistara」を発表した。これにより、廃棄サーバーなどのメモリを活用することで、低コストで、サーバー数の削減、スループットの向上などを実現できるとする。

 現在のデータセンターでは、メモリ容量がボトルネックとなってパフォーマンスやスケーラビリティを制約しているケースが少なくない。Metaの場合は、数百万台のサーバーのうち、約40%がこれに該当しているという。加えて、サーバー本体が5~7年、メモリは10~14年と寿命に大きな違いがあることから、サーバーを入れ替えた際にメモリを再利用しようとすると、メモリの性能が追いつかず、システムの性能に影響してしまうという課題もあった。

 これらの課題に対し、オープンなインターコネクト規格であるCXLを使うことで、廃棄されたサーバーの古いメモリなどを、新しいサーバーの拡張メモリとして再利用する手法が注目されている。非常に低コストでメモリを拡張でき、性能向上が図れるほか、廃棄物を減らせるため二酸化炭素排出量の削減にもつながるとされる。

 しかし、CXLを経由することで帯域幅が狭くなり、遅延が大きくなるため、ソフトウェア実行時のオーバーヘッドに影響すること、市場にあるCXL対応製品がDDR4メモリの再利用をサポートしていないこと、消費電力やコストが高くなることなどが課題とされていた。

ソフトウェア面ではワークロードにあわせて使うメモリをコントロール

 Metaではこれに対し、ハードウェアとソフトウェアが協調するシステム設計を採用した。ハードウェア面では、旧メモリ規格の再利用、電力効率、低遅延に最適化した自社製ASICとなるVistaraを開発した。ソフトウェア面では、TPP(Transparent Page Placement)ベースの最適化により、ワークロードごとに適切なメモリ比率を決め、低遅延が重要なワークロードでは自動的にCXLを無効化する仕組みを導入した。

 これらのソリューションを数百万台規模のハイパースケールインフラに展開したところ、さまざまなワークロードで大きな効果を発揮した。巨大なMLモデルの分散推論/学習では、サーバー数を25%削減でき、モデルサイズが5.1TBの場合で最大4%、20TBにスケールしても最大12%推論スループットが向上したという。加えて、キャッシングサービス、大規模分散分析システム、開発インフラなどの用途でも、性能向上やコスト削減を実現できたと説明している。

巨大なMLモデルの分散推論/学習における検証結果