ニュース

LLM処理効率を最大475倍にする新技術。富士通が開発

 富士通は6月24日、LLM(大規模言語モデル)において大幅なコスト削減を実現できるアーキテクチャ「Parallel Hierarchical Operation for TOp-down Networks」(略称: PHOTON)を開発したと発表した。

 現在主流のTransformerでは、入力が長くなったり、同時に多くの問い合わせを処理したりすると、過去の情報を保持するためのメモリアクセスが増え、処理速度が落ちる。一方、PHOTONは従来のようにトークンに分解してそれぞれの関係を計算するのではなく、文章を「意味のまとまり」として捉えて階層的に処理することで計算量を削減した。

 これに加えて、同じ問題に対して少しずつ異なる複数の質問や候補を作り、多数決や最も良い候補を選ぶ方法などで結果を統合する「マルチクエリー統合技術」も採用。1回の推論だけでより安定した高い性能を実現したという。

 数値実験の結果、1.2Bパラメータのモデルにおいて、わずかな性能劣化と引き換えに、Transformerと比較して約475倍のマルチクエリ計算能力を実現したという。さらに、1回当たりの生成に必要なKVキャッシュ使用量も小さく、同じGPUメモリ予算内で複数の生成結果を並列に得ることができるため、得られた9クエリを統合することでTransformerと同水準の性能を実現できたとしている。

 この研究成果は、7月2日から米国サンディエゴで開催されるカンファレンス「The 64th Annual Meeting of the Association for Computational Linguistics」で発表される予定。