ニュース

DeepSeek、LLM推論を最大85%高速化する新手法「DSpark」

DSparkのアーキテクチャ

 DeepSeekは6月27日、LLM推論を高速化する新しい投機的デコーディングフレームワーク「DSpark」を発表した。関連するコードベース「DeepSpec」はGitHubで公開しているほか、同技術を適用したモデル「DeepSeek-V4-Flash-DSpark」および「DeepSeek-V4-Pro-DSpark」もHugging Faceで公開中だ。

 LLMの投機的デコーディングは、軽量な「ドラフトモデル」で先読みし、その後に大容量なモデルで一括検証することで推論を高速化する手法。しかし、これまでのモデルは、並列処理のためドラフトの段階で文脈が破綻しやすい問題があったほか、高負荷時に拒否される可能性の高いトークンまで検証してしまい、計算リソースを無駄にしてしまうという課題があった。

 そこでDSparkは、並列処理のバックボーンに軽量な逐次処理モジュールを組み合わせる半自己回帰アーキテクチャを採用。速さを維持しつつ、トークン間の自然なつながりを予測できるようにした。また、各トークンの生存確率を予測する「信頼度ヘッド」を設け、ハードウェア対応のスケジューラがそのときのシステム負荷に応じて最適な検証範囲を決定し、効率を高めた。

 同社がオフラインモデルのQwen3-4B/8B/14Bを使った検証では、ほかの投機的デコーディング技術である「Eagle3」や「DFlash」と比較して、正解のトークン数が約16%~30%向上した。また、本番環境での検証では「DeepSeek-V4-Flash」でユーザーあたり60%~85%、「DeepSeek-V4-Pro」ではユーザーあたり57%~78%の高速化ができたという。