ニュース

Google、メモリ1GB未満で品質劣化少ないGemma 4が動くQATモデル無償提供

 Google DeepMindは6月5日、大規模言語モデル「Gemma 4」のメモリ要件を削減しつつ、性能を最大化する「QAT(Quantization-Aware Training)」最適化チェックポイントをリリースした。Hugging Faceなどから無料でダウンロードして利用できる。

 LLMの容量を削減する技術として量子化が広く採用されているのだが、一般的にはトレーニング後量子化(PTQ)が用いられるため性能が低下する。今回採用されたQATは、モデルのトレーニング中に量子化をシミュレートして直接統合することでより高い品質を実現。広く普及しているQ4_0フォーマットに適用した。

 これにより、Gemma 4の期待される機能と品質を維持しながら、メモリ要件を大幅に削減し、日常的に使用するエッジデバイスやコンシューマ向けGPUでローカルモデルを実行できるようになる。

メモリ消費量

 また、エッジモデルの「E2B」および「E4B」に対しては、モバイルプロセッサで効率的に動作するよう、独自のモバイル量子化スキームを開発。具体的には、データのスケーリング設定を訓練時に事前計算する静的アクティベーションや、モバイルアクセラレータの設計に合わせたチャネルごとの量子化を採用。また、推論のコアとなる層を高精度に維持しつつ、トークン生成部分を2bitに圧縮するターゲットを絞った2bit量子化のほか、語彙リストやKVキャッシュに対する最適化も施している。

 オーディオやビジョンのエンコーダを持たないテキスト専用モデルの「Gemma 4 E2B」では、メモリ使用量が1GB未満に抑えられるとしている。