ニュース

Google、Gemma 4を3倍を高速化。出力品質はそのまま

 Googleは5月5日、最新の高性能オープンモデル「Gemma 4」向けに、出力品質を維持しながら推論速度を最大3倍引き上げる「Multi-Token Prediction(MTP) drafters」を提供開始した。Apache 2.0ライセンスのもとオープンソースで公開しており、モデルウェイトはHugging FaceやKaggleにて入手できる。

 大規模言語モデル(LLM)では、トークンを生成するたびに大量のパラメータをVRAMから演算ユニットに転送するため、メモリの帯域幅がボトルネックとなって演算パワーが十分に活用できず、レイテンシが大きくなってしまう。今回提供されるMulti-Token Prediction(MTP) draftersは、投機的デコーディング(speculative decoding)アーキテクチャを利用してこの課題の解消を図るもので、出力品質を維持しつつ、応答性やエッジデバイスでの性能の向上を実現する。

 同社の説明によれば、Google PixelのTPUとGemma 4 E4Bを組み合わせた場合で最大3.1倍、NVIDIA A100とGemma 4 31Bの場合で最大3倍、Apple M4とGemma 4 31Bの場合で最大2.5倍の高速化が可能だとしている。

Gemma 4とMTP draftersによる高速化
NVIDIA RTX PRO 6000とGemma 4 26Bを組み合わせた場合。同じ品質の出力を半分の時間で行なえるという

 具体的には、処理の軽いドラフタ(MTPモデル)と、重いターゲットモデル(Gemma 4など)を組み合わせた仕組みとなっている。ドラフタが将来のトークンを推測して複数生成し、ターゲットモデルがこのシーケンスを並列処理で検証。問題がなければこれらのトークンを使ってそのまま出力を行ない、新たにトークンを生成する。トークンの生成と検証を分離することで、従来の1トークンを生成する時間で、ドラフタが生成したシーケンス全体と1トークンを出力できるため、処理の高速化が可能となる。

 なお、今回同社が公開したMTP draftersでは、コンテキストの再計算が発生しないようドラフトモデルとターゲットモデルでKVキャッシュを共有するなど、高速で高精度な処理を実現するための改良も施している。また、バッチサイズの調整によるデバイスへの最適化も可能となっている。