DeepSeek 於 2026 年 4 月 24 日發布 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的預覽版本；兩者都是具備百萬 token 上下文視窗（one million token context windows）的開放權重（open-weight）模型，且定價顯著低於可比的西方替代方案。根據該公司的官方規格，V4-Pro 模型每百萬輸入 tokens 價格為 $1.74、每百萬輸出 tokens 價格為 $3.48——約為 Claude Opus 4.7 價格的 1/20，且比 GPT-5.5 Pro 低 98%。

模型架構與規模

DeepSeek-V4-Pro 擁有 1.6 兆（trillion）總參數，使其成為截至目前 LLM 市場中最大的開源模型。然而，只有每次推理（inference pass）會啟用 490 億（billion）參數，採用 DeepSeek 所稱的 Mixture-of-Experts（混合專家）方法，並自 V3 以來進行了精煉。此設計使整個模型能夠處於休眠狀態，只在任何給定請求中啟用相關切片（slices），在維持知識容量的同時降低運算成本。

DeepSeek-V4-Flash 則以較小規模運作：共有 2840 億（billion）總參數、以及 130 億（billion）啟用參數。依據 DeepSeek 的基準測試（benchmarks），它「在給予更大的思考預算（thinking budget）時，能達到與 Pro 版本相當的推理效能」。

兩個模型都將百萬 token 的上下文（one million tokens of context）作為標準功能——約 750,000 個字詞，或大致等同於「魔戒（Lord of the Rings）」三部曲全部內容，再加上額外文字。

技術創新：大規模注意力機制（Attention Mechanisms at Scale）

DeepSeek 透過發明兩種新的 attention 類型來解決長上下文處理所固有的運算擴展問題，這些內容詳見該公司在 GitHub 上提供的技術論文。

標準 AI 注意力機制面臨一個殘酷的擴展（scaling）問題：每當上下文長度加倍，運算成本就大約會四倍。DeepSeek 的解法包含兩種互補的方法：

Compressed Sparse Attention（壓縮稀疏注意力） 以兩個步驟運作。首先，它會壓縮 token 群——例如把每 4 個 token 壓縮成一個條目。接著，並不是對所有壓縮後的條目都進行注意力計算，而是使用「Lightning Indexer」為任何給定查詢（query）只選取最相關的結果。這使得模型的注意力範圍從百萬 tokens 降低到一個更小的、由重要片段（chunks）構成的集合。

Heavily Compressed Attention（高度壓縮注意力） 採取更激進的做法，在不進行稀疏選擇（sparse selection）的情況下，直接把每 128 個 token 折疊成一個條目。雖然這會犧牲細緻度，但它提供了超低成本的全域視圖（global view）。兩種 attention 類型在交錯的層（alternating layers）中運行，使模型能同時保留細節與概覽。

結果是：V4-Pro 的運算量只用到了其前代（predecessor）(V3.2) 所需運算的 27%。KV cache——用於追蹤上下文的記憶體——降至 V3.2 的 10%。V4-Flash 進一步提升效率：相對於 V3.2，運算量為 10%，記憶體為 7%。

基準效能表現與競爭地位

DeepSeek 發布了針對 GPT-5.4 與 Gemini-3.1-Pro 的完整基準比較（benchmark comparisons），包含 V4-Pro 落後競品的領域。在推理（reasoning）任務上，根據 DeepSeek 的技術報告，V4-Pro 的推理能力比 GPT-5.4 和 Gemini-3.1-Pro 落後約三到六個月。

V4-Pro 的優勢在於：

Codeforces (競賽程式設計)：V4-Pro 得分 3,206，約在所有真實人類競賽參與者中排名第 23
Apex Shortlist (精選數學與 STEM 問題)：通過率 90.2%，高於 Opus 4.6 的 85.9% 與 GPT-5.4 的 78.1%
SWE-Verified (GitHub 問題解決)：80.6%，與 Claude Opus 4.6 相同

V4-Pro 的劣勢在於：

MMLU-Pro (多任務)：Gemini-3.1-Pro 為 91.0%，而 V4-Pro 為 87.5%
GPQA Diamond (專家知識)：Gemini 為 94.3，而 V4-Pro 為 90.1
Humanity’s Last Exam (研究生級)：Gemini-3.1-Pro 為 44.4%，而 V4-Pro 為 37.7%

在長上下文任務（long-context tasks）上，V4-Pro 領先開源模型，並在 CorpusQA (模擬在百萬 token 下進行真實文件分析) 上擊敗 Gemini-3.1-Pro，但在 MRCR 上落後於 Claude Opus 4.6；MRCR 衡量的是從深藏於長文本中的特定資訊進行檢索（retrieval）。

Agentic 與程式能力

V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 程式碼工具中運行。根據 DeepSeek 對 85 位開發者（使用 V4-Pro 作為其主要程式代理 agent）的內部調查，其中 52% 表示它已準備好成為他們的預設模型（default model），39% 偏向於「是」，而少於 9% 表示「否」。DeepSeek 的內部測試顯示，V4-Pro 在 agentic 程式任務上優於 Claude Sonnet，並接近 Claude Opus 4.5。

Artificial Analysis 在 GDPval-AA 上將 V4-Pro 排名為所有開放權重模型中的第一名；GDPval-AA 是一項基準，用於測試在財經、法律與研究任務中具有經濟價值的知識工作（economically valuable knowledge work）。V4-Pro-Max 得分 1,554 Elo，領先 GLM-5.1 (1,535) 與 MiniMax 的 M2.7 (1,514)。在相同基準上，Claude Opus 4.6 得分 1,619。

V4 引入「交錯式思考（interleaved thinking）」：能在各次工具呼叫（tool calls）之間保留完整的思考鏈（chain of thought）。在先前的模型中，當代理發出多次工具呼叫（例如搜尋網頁、執行程式碼，然後再搜尋）時，模型的推理上下文（reasoning context）會在各輪之間被清空（flushed）。V4 會在步驟之間維持推理連續性，避免複雜的自動化工作流程中發生上下文遺失。

競爭格局與定價背景

V4 的發布正值 AI 領域出現顯著動態之際。Anthropic 於 2026 年 4 月 16 日發布 Claude Opus 4.7。OpenAI 的 GPT-5.5 於 2026 年 4 月 23 日推出，GPT-5.5 Pro 的定價為每百萬輸入 tokens $30 與每百萬輸出 tokens $180 。在 Terminal Bench 2.0 (上的表現，GPT-5.5 優於 V4-Pro；該基準的成績為 82.7% 對比 70.0%)，測試的是複雜的命令列代理（command-line agent）工作流程。

小米於 2026 年 4 月 22 日發布 MiMo V2.5 Pro，提供完整多模態能力 (image, audio, video)，其定價為每百萬 tokens 的 $1 input 與 $3 output。騰訊（Tencent）則在 GPT-5.5 同一天發布 Hy3。

以定價觀點來看：Cline 的 CEO Saoud Rizwan 指出，若 Uber 在 2026 年使用 DeepSeek 而非 Claude，其 AI 預算——據稱足夠使用四個月——原本可延續七年。

部署與可用性

V4-Pro 與 V4-Flash 皆採 MIT 授權，並可在 Hugging Face 取得。就目前而言，這些模型僅支援文字（text-only）；DeepSeek 表示正在開發多模態能力。兩個模型都可以在本地硬體上免費運行，或依公司需求進行客製化。

DeepSeek 既有的 deepseek-chat 與 deepseek-reasoner 端點（endpoints）目前分別在非思考（non-thinking）與思考（thinking）模式下已導向 V4-Flash。舊的 deepseek-chat 與 deepseek-reasoner 端點將於 2026 年 7 月 24 日退役。

DeepSeek 部分使用華為 Ascend 晶片來訓練 V4，從而繞過美國的出口限制。該公司表示，等到 2026 年後續將有 950 個新的超級節點（supernodes）上線後，Pro 模型已經很低的價格還會進一步下降。

實務上的影響

對企業而言，定價結構可能會改變成本效益計算。以每百萬輸入 tokens 價格 $1.74 便能在開源基準中領先的模型，使大規模文件處理、法律審查以及程式碼生成（code generation）流程，較六個月前顯著便宜。百萬 token 的上下文允許整套程式碼庫或監管文件能在單次請求中被處理，而不必切分成多次呼叫。

對開發者與獨立建置者（solo builders）而言，V4-Flash 是主要考量。以每百萬 tokens 的 $0.14 輸入與 $0.28 輸出計算，它比一年前被視為預算選項（budget options）的模型更便宜，同時能處理 Pro 版本所能完成的大多數任務。

View Source

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

APR Daydream

· 8小時前

希望官方給一個可審計的行動日誌/回放機制，不然出了問題很難追責，尤其是自動操作資產類帳戶。

查看原文回復0

PaperHandsPro

· 8小時前

現實應用中的“理解意圖”才是難點，希望別再出現你想訂機票它去改你簡歷的尷尬。

查看原文回復0

半剖多肉

· 8小時前

有點期待，也有點怕：能點鼠標就等於能做很多“人類點擊”才能做的事，風控和反作弊得升級。

查看原文回復0

柚子味的冷静

· 8小時前

這波對 Web3 也有影響吧，自動化鏈上操作、簽名流程、錢包交互要是能無縫做，產品形態會變。

查看原文回復0

玻璃穹顶里的星

· 9小時前

API 和價格先別急，先看看它在複雜桌面環境裡能不能抗彈窗、抗多窗口、抗網路抖動。

查看原文回復0

GateUser-b665e41c

· 9小時前

感覺從“能說會寫”進化到“能做能交付”，下一步就是給它更好的記憶和任務管理了。

查看原文回復0

Lint Collector

· 9小時前

如果真能跨應用串聯：瀏覽器查資料→Excel 處理→PPT 出稿→郵箱發送，那就是辦公全鏈路閉環。

查看原文回復0

DegenWithNotebook

· 9小時前

終於在桌面原生操作了？這下真要當“數字實習生”了。

查看原文回復0