ニュース

スマホでも213tok/sの爆速推論を実現するモデル「LFM2.5-230M」無料公開

CPU推論時の速度

 Liquid AIは6月25日(米国時間)、同社最小のエージェントAIモデル「LFM2.5-230M」をオープンウェイトで公開した。ツール呼び出しやデータ抽出といった軽量なエージェント用途に特化している。パラメータ数は230M(=0.2B)で、Hugging Faceからダウンロードして利用できる。編集部で試したところ、CPUで4bit量子化したモデルを利用した場合、スマートフォン「Galaxy S25 Ultra」では213tok/s、シングルボードコンピュータの「Raspberry Pi 5」でも42tok/sの高速な応答を確認した。

 このモデルは、LFM2.5-350Mからの蒸留による教師あり微調整、直接的な選好最適化、マルチドメイン強化学習の3段階を経て作られた。最終チェックポイントはすぐに利用可能な能力と下流タスクへの特化をバランスよく両立させ、大規模なモデルにも引けを取らない性能を発揮するという。

 同社がテストしたところ、知識、指示追従、データ抽出、ツール使用などにおいて、2倍以上の規模のモデルと競合、もしくはそれを上回る性能を実現したとしている。一方、高度な数学やコード生成など推論負荷の高いタスクには向かないとしている。

H100 GPU利用時のレイテンシ
LFM2.5-230Mの性能