DeepSeek 於 2026 年 4 月 24 日發布 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的預覽版本;兩者都是具備百萬 token 上下文視窗(one million token context windows)的開放權重(open-weight)模型,且定價顯著低於可比的西方替代方案。根據該公司的官方規格,V4-Pro 模型每百萬輸入 tokens 價格為 $1.74、每百萬輸出 tokens 價格為 $3.48——約為 Claude Opus 4.7 價格的 1/20,且比 GPT-5.5 Pro 低 98%。
DeepSeek-V4-Pro 擁有 1.6 兆(trillion)總參數,使其成為截至目前 LLM 市場中最大的開源模型。然而,只有每次推理(inference pass)會啟用 490 億(billion)參數,採用 DeepSeek 所稱的 Mixture-of-Experts(混合專家)方法,並自 V3 以來進行了精煉。此設計使整個模型能夠處於休眠狀態,只在任何給定請求中啟用相關切片(slices),在維持知識容量的同時降低運算成本。
DeepSeek-V4-Flash 則以較小規模運作:共有 2840 億(billion)總參數、以及 130 億(billion)啟用參數。依據 DeepSeek 的基準測試(benchmarks),它「在給予更大的思考預算(thinking budget)時,能達到與 Pro 版本相當的推理效能」。
兩個模型都將百萬 token 的上下文(one million tokens of context)作為標準功能——約 750,000 個字詞,或大致等同於「魔戒(Lord of the Rings)」三部曲全部內容,再加上額外文字。
DeepSeek 透過發明兩種新的 attention 類型來解決長上下文處理所固有的運算擴展問題,這些內容詳見該公司在 GitHub 上提供的技術論文。
標準 AI 注意力機制面臨一個殘酷的擴展(scaling)問題:每當上下文長度加倍,運算成本就大約會四倍。DeepSeek 的解法包含兩種互補的方法:
Compressed Sparse Attention(壓縮稀疏注意力) 以兩個步驟運作。首先,它會壓縮 token 群——例如把每 4 個 token 壓縮成一個條目。接著,並不是對所有壓縮後的條目都進行注意力計算,而是使用「Lightning Indexer」為任何給定查詢(query)只選取最相關的結果。這使得模型的注意力範圍從百萬 tokens 降低到一個更小的、由重要片段(chunks)構成的集合。
Heavily Compressed Attention(高度壓縮注意力) 採取更激進的做法,在不進行稀疏選擇(sparse selection)的情況下,直接把每 128 個 token 折疊成一個條目。雖然這會犧牲細緻度,但它提供了超低成本的全域視圖(global view)。兩種 attention 類型在交錯的層(alternating layers)中運行,使模型能同時保留細節與概覽。
結果是:V4-Pro 的運算量只用到了其前代(predecessor)(V3.2) 所需運算的 27%。KV cache——用於追蹤上下文的記憶體——降至 V3.2 的 10%。V4-Flash 進一步提升效率:相對於 V3.2,運算量為 10%,記憶體為 7%。
DeepSeek 發布了針對 GPT-5.4 與 Gemini-3.1-Pro 的完整基準比較(benchmark comparisons),包含 V4-Pro 落後競品的領域。在推理(reasoning)任務上,根據 DeepSeek 的技術報告,V4-Pro 的推理能力比 GPT-5.4 和 Gemini-3.1-Pro 落後約三到六個月。
V4-Pro 的優勢在於:
V4-Pro 的劣勢在於:
在長上下文任務(long-context tasks)上,V4-Pro 領先開源模型,並在 CorpusQA (模擬在百萬 token 下進行真實文件分析) 上擊敗 Gemini-3.1-Pro,但在 MRCR 上落後於 Claude Opus 4.6;MRCR 衡量的是從深藏於長文本中的特定資訊進行檢索(retrieval)。
V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 程式碼工具中運行。根據 DeepSeek 對 85 位開發者(使用 V4-Pro 作為其主要程式代理 agent)的內部調查,其中 52% 表示它已準備好成為他們的預設模型(default model),39% 偏向於「是」,而少於 9% 表示「否」。DeepSeek 的內部測試顯示,V4-Pro 在 agentic 程式任務上優於 Claude Sonnet,並接近 Claude Opus 4.5。
Artificial Analysis 在 GDPval-AA 上將 V4-Pro 排名為所有開放權重模型中的第一名;GDPval-AA 是一項基準,用於測試在財經、法律與研究任務中具有經濟價值的知識工作(economically valuable knowledge work)。V4-Pro-Max 得分 1,554 Elo,領先 GLM-5.1 (1,535) 與 MiniMax 的 M2.7 (1,514)。在相同基準上,Claude Opus 4.6 得分 1,619。
V4 引入「交錯式思考(interleaved thinking)」:能在各次工具呼叫(tool calls)之間保留完整的思考鏈(chain of thought)。在先前的模型中,當代理發出多次工具呼叫(例如搜尋網頁、執行程式碼,然後再搜尋)時,模型的推理上下文(reasoning context)會在各輪之間被清空(flushed)。V4 會在步驟之間維持推理連續性,避免複雜的自動化工作流程中發生上下文遺失。
V4 的發布正值 AI 領域出現顯著動態之際。Anthropic 於 2026 年 4 月 16 日發布 Claude Opus 4.7。OpenAI 的 GPT-5.5 於 2026 年 4 月 23 日推出,GPT-5.5 Pro 的定價為每百萬輸入 tokens $30 與每百萬輸出 tokens $180 。在 Terminal Bench 2.0 (上的表現,GPT-5.5 優於 V4-Pro;該基準的成績為 82.7% 對比 70.0%),測試的是複雜的命令列代理(command-line agent)工作流程。
小米於 2026 年 4 月 22 日發布 MiMo V2.5 Pro,提供完整多模態能力 (image, audio, video),其定價為每百萬 tokens 的 $1 input 與 $3 output。騰訊(Tencent)則在 GPT-5.5 同一天發布 Hy3。
以定價觀點來看:Cline 的 CEO Saoud Rizwan 指出,若 Uber 在 2026 年使用 DeepSeek 而非 Claude,其 AI 預算——據稱足夠使用四個月——原本可延續七年。
V4-Pro 與 V4-Flash 皆採 MIT 授權,並可在 Hugging Face 取得。就目前而言,這些模型僅支援文字(text-only);DeepSeek 表示正在開發多模態能力。兩個模型都可以在本地硬體上免費運行,或依公司需求進行客製化。
DeepSeek 既有的 deepseek-chat 與 deepseek-reasoner 端點(endpoints)目前分別在非思考(non-thinking)與思考(thinking)模式下已導向 V4-Flash。舊的 deepseek-chat 與 deepseek-reasoner 端點將於 2026 年 7 月 24 日退役。
DeepSeek 部分使用華為 Ascend 晶片來訓練 V4,從而繞過美國的出口限制。該公司表示,等到 2026 年後續將有 950 個新的超級節點(supernodes)上線後,Pro 模型已經很低的價格還會進一步下降。
對企業而言,定價結構可能會改變成本效益計算。以每百萬輸入 tokens 價格 $1.74 便能在開源基準中領先的模型,使大規模文件處理、法律審查以及程式碼生成(code generation)流程,較六個月前顯著便宜。百萬 token 的上下文允許整套程式碼庫或監管文件能在單次請求中被處理,而不必切分成多次呼叫。
對開發者與獨立建置者(solo builders)而言,V4-Flash 是主要考量。以每百萬 tokens 的 $0.14 輸入與 $0.28 輸出計算,它比一年前被視為預算選項(budget options)的模型更便宜,同時能處理 Pro 版本所能完成的大多數任務。