ニュース

コーディングでGPT-5.4超え「DeepSeek-V4」無償公開

DeepSeek-V4-Pro(Max推論モード)と他モデルとの比較

 DeepSeek-AIは4月24日、100万トークンのコンテキスト長に対応したオープンソースAIモデル「DeepSeek-V4 Preview」を公開した。コーディング競技ベンチマーク「Codeforces」ではGPT-5.4を上回るレーティングを記録し、オープンソースモデルとして最先端の水準を達成。モデルの重みはMITライセンスのもとHugging Faceで公開されており、ダウンロードして利用できる。

 ラインナップは2種類。上位モデル「DeepSeek-V4-Pro」は総パラメータ数1兆6,000億(推論時アクティブ490億)、下位モデル「DeepSeek-V4-Flash」は総パラメータ数2,840億(同130億)。いずれもMixture-of-Experts(MoE)アーキテクチャを採用する。

 コンテキスト効率の向上を支える中核技術が、独自のハイブリッドアテンション機構だ。KVキャッシュを圧縮してスパースアテンションを行なう「CSA」(Compressed Sparse Attention)と、より強力な圧縮を施す「HCA」(Heavily Compressed Attention)を組み合わせた。100万トークンのコンテキスト設定において、前世代のDeepSeek-V3.2と比べて推論演算量(FLOPs)を約73%、KVキャッシュサイズを約90%削減している。この効率化により、すべてのDeepSeek公式サービスにおいてデフォルトで100万トークンのコンテキスト長を提供できるようにした。

 ベンチマーク結果を見ると、DeepSeek-V4-Proの最大推論モード「DeepSeek-V4-Pro-Max」が際立つ。Codeforcesでレーティング3,206を記録してGPT-5.4(3,168)を上回り、人間の競技参加者の中で23位に相当する実力を示した。コーディングベンチマーク「LiveCodeBench」でもPass@1で93.5%を達成し、Gemini 3.1 Pro(91.7%)やClaude Opus 4.6(88.8%)を超えた。数学ではHMMT 2026 Febで95.2%を記録し、知識評価のSimpleQA Verifiedでも既存のオープンソースモデルを約20ポイント引き離す57.9%を達成している。

 エージェント機能の最適化も施しており、Claude CodeやOpenClaw、OpenCodeといった主要AIエージェントフレームワークとの統合に対応する。ソフトウェア開発タスクのベンチマーク「SWE Verified」では80.6%を達成し、Claude Opus 4.6(80.8%)とほぼ同等の水準だ。

DeepSeek-V4-Flashと他モデルとの比較

 一方のDeepSeek-V4-Flashは、推論時のアクティブパラメータが130億と軽量ながらV4-Proに近い推論能力を持つ。CodeforcesでもGemini 3.1 Pro(3,052)と同等のレーティングを達成するなど、シンプルなタスクではV4-Proに匹敵する。少ないアクティブパラメータ数で素早く応答でき、コストパフォーマンスに優れたAPI価格設定も特徴だ。