ニュース

Google、LLM実行時の消費メモリを6分の1に削減する「TurboQuant」

Googleが提示したベンチマーク。KVキャッシュ圧縮において優れた結果を残した

 米Googleは、LLM実行時に大量のメモリを消費する問題を解消し、使用量を6分の1に抑えられるベクトル量子化における圧縮アルゴリズム「TurboQuant」を発表した。4月23日から開催される学習表現に関する国際会議「ICLR 2026」で詳細が発表される予定。

 現在のAIは、言葉や画像などを理解して処理するためにベクトルを用いている。ベクトルは強力だが、膨大な量のメモリを消費する。また、コンピュータが低速で大規模なデータベースを検索することなく、瞬時に情報を取得できるようにするためキーバリューキャッシュ(KVキャッシュ)を用いる。いわばよく使う情報を書き写したメモのようなものだが、そもそもデータベース自体が大きいため、KVキャッシュも肥大化しているという課題がある。

 そこでベクトル量子化技術が登場した。だが、従来の量子化では、小さなデータブロックごとに量子化定数を計算して完全な精度で保存する必要があるため、メモリのオーバーヘッドが発生する。これにより数値ごとに1bitまたは2bitが余分に追加され、ベクトル量子化の目的を部分的に損ねる原因となっていた。

 Googleが今回発表したTurboQuantでは、「QJL」アルゴリズムと、「PolarQuant」という手法を用いてこの原因に対処している。

 QJLは、ジョンソン・リンデンシュトラウス変換と呼ばれる数学的手法を用いて、複雑で高次元のデータを縮小しつつ、データポイント間の重要な距離と関係性を維持。結果として得られるベクトル数値は単一の符号ビット(+1または-1)に縮小される。精度を維持するために、QJLは高精度のクエリと低精度で簡略化されたデータの間でバランスを取る特別な推定器を使用。アテンションスコア(データの重要な部分と無視できる部分を判断するプロセス)を正確に計算できるという。

 一方、PolarQuantは従来、各軸に沿った距離を示す標準座標(X/Y/Z)などを使用してメモリベクトルを見る代わりに、デカルト座標系を使用しベクトルを極座標に変換する技術。

 たとえば、従来は「東に3ブロック、北に4ブロック進む」と表現していたところ、PolarQuantでは「37度の角度で合計5ブロック進む」といったものに置き換える。これにより、コアデータの強さを示す半径と、データの方向または意味を示す角度という2つの情報で表現する。

 境界が常に変化する従来の正方形のグリッドとは異なり、境界が既に分かっている、固定された予測可能な円形グリッドにデータをマッピングするので、データ正規化を実行する必要がなく、メモリのオーバーヘッドを排除できるとしている。

 同社のテストによれば、オープンソースのLLMを使用して長いコンテキストのベンチマークにおいて、TurboQuantはドット積の歪みと再現率の両方で最適なスコアリング性能を達成しつつ、KVキャッシュのフットプリントを最小限に抑えられたという。加えて、膨大なテキストの中に埋もれた小さな情報を見つけられるかどうか確認するために設計されたテストにおいて、性能を損なうことなく、KVキャッシュサイズを少なくとも6分の1に削減できたという。

処理速度が向上している

 また、トレーニングやファインチューニングなしでモデルの精度を損なわずにKVキャッシュを3bitに量子化できることを実証し、4bitのTurboQuantは32bitの量子化されていないキーと比較して、最大8倍の性能向上を実現したとしている。

 TurboQuantの主用途の1つとして、GeminiのようなモデルにおけるKVキャッシュのボトルネックの解消を挙げているが、現代の検索は単なるキーワード検索のみならず、意図や意味を理解する方向へと進化する中においても重要な役割を果たすとしている。