ニュース

NPU対応DeepSeek R1蒸留モデルに7B/14B版が登場。ただし……

 Microsoftは3月3日、NPUでの処理に最適化したDeepSeek R1蒸留モデルに、7Bおよび14Bのバリアントを追加し、Azure AI Foundry経由で提供開始した。「Visual Studio Code」にAI Toolkitの拡張機能を導入すれば、モデルをダウンロードして試せる。

 ただし、今回もまずはSnapdragon Xを搭載したCopilot+ PCから始まるとしており、その後Core Ultra 200VおよびRyzenに展開する。同社は2月初旬に1.5BモデルSnapdragon X向けに提供開始したが、現時点においてもCore Ultra/Ryzen版を用意していないことから鑑みると、提供は先になりそうだ。

 7Bおよび14Bのモデルでは、研究者や開発者、エンスージアストなどが、大規模マシンラーニングの強力なパワーと機能をCopilot+ PC上で体験できるとしている。

 DeepSeekを含む近年のLLMモデルは、応答する前に「事前に考える」ようになっている。この計算能力を生かしたアプローチにより、パラメータ数やトレーニングデータを増加させずに応答品質を向上させられる。DeepSeekの蒸留モデルは小規模な事前トレーニング済みモデルでも推論機能が強化され、優れた応答が得られることが実証されており、NPUとの組み合わせに適していた。

 しかし、推論において複雑な複数ステップの推論を行なうために、多数のトークンを使用して考える必要がある。これはメモリが16GB程度のコンシューマPCで実行する上での課題だった。そこでMicrosoftはNPUにおける低ビット推論用のスケーラブルなプラットフォーム「Phi Silica」を展開し、メモリと帯域幅の負担を最小限に抑える工夫をした。

 DeepSeekの1.5Bのリリースの際には、QuaRotと呼ばれる量子化スキーム、最初のトークン応答を高速化するスライディングウィンドウといった多数の最適化手法を用いたのだが、7Bおよび14Bにおいてもこれらを再利用。

 また、埋め込みと言語モデルヘッドに4bitブロック単位の量子化を使用し、メモリアクセスの多い操作をCPUで実行。そしてコンテキスト処理とトークン反復を含む計算量の多いトランスフォーマーブロックにint16アクティベーション、重みにint4チャネルごとの量子化を使用した。その結果、14Bモデルで約8tok/sの速度を実現した。