ニュース

NPUでのDeepSeek R1動作、今はSnapdragon Xでしか試せない

 先日、DeepSeek R1のモデルがNPU上で動作するようMicrosoftが移植作業を行なったと報じたが、2月3日にこのリリースのブログが更新され、Snapdragon搭載のCopilot+ PC上でONNXを使用して最適化されたモデルが動作するようになったことが明らかとなった。

 プロンプトで指定したタスクの複雑さによるが、今回のさらなる最適化により、64トークン未満の短いプロンプトで、最初のトークンまでの時間が70ms未満となり、スループットレートが最大で40トークン/sになるという(範囲は25~40トークン/s)。応答が長いほどスループットレートが高くなる傾向がある。

 ちなみに当初の発表では最初のトークンまでの時間が130ms未満、スループットが16トークン/sとしていたので、速度が向上している。ブログで動画が追加されているが、実用的な速度でDeepSeek R1モデルが動作しているのが分かる(ただし、経験上DeepSeek R1の1.5Bや7B程度までの場合は中国語や英語のみが実用的であることが多い)。

 また、今回のモデルの最適化における混合演算精度の詳細が公開された。埋め込みと言語モデルヘッドにはCPUが使われ、コンテキスト処理とトークン反復処理にNPUが使われていることが分かる。

モデル精度ホスト
埋め込みw:int4 a:fp32CPU
コンテキスト処理w:int4 a:int16NPU
トークン反復w:int4 a:int16NPU
言語モデルヘッドw:int4 a:fp32CPU