DeepSeek V4-Pro 以比 GPT-5.5 Pro 低 98% 的成本推出

Crypto Frontier

DeepSeek 於 2026 年 4 月 24 日發布 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的預覽版本;兩者都是具備百萬 token 上下文視窗(one million token context windows)的開放權重(open-weight)模型,且定價顯著低於可比的西方替代方案。根據該公司的官方規格,V4-Pro 模型每百萬輸入 tokens 價格為 $1.74、每百萬輸出 tokens 價格為 $3.48——約為 Claude Opus 4.7 價格的 1/20,且比 GPT-5.5 Pro 低 98%。

模型架構與規模

DeepSeek-V4-Pro 擁有 1.6 兆(trillion)總參數,使其成為截至目前 LLM 市場中最大的開源模型。然而,只有每次推理(inference pass)會啟用 490 億(billion)參數,採用 DeepSeek 所稱的 Mixture-of-Experts(混合專家)方法,並自 V3 以來進行了精煉。此設計使整個模型能夠處於休眠狀態,只在任何給定請求中啟用相關切片(slices),在維持知識容量的同時降低運算成本。

DeepSeek-V4-Flash 則以較小規模運作:共有 2840 億(billion)總參數、以及 130 億(billion)啟用參數。依據 DeepSeek 的基準測試(benchmarks),它「在給予更大的思考預算(thinking budget)時,能達到與 Pro 版本相當的推理效能」。

兩個模型都將百萬 token 的上下文(one million tokens of context)作為標準功能——約 750,000 個字詞,或大致等同於「魔戒(Lord of the Rings)」三部曲全部內容,再加上額外文字。

技術創新:大規模注意力機制(Attention Mechanisms at Scale)

DeepSeek 透過發明兩種新的 attention 類型來解決長上下文處理所固有的運算擴展問題,這些內容詳見該公司在 GitHub 上提供的技術論文。

標準 AI 注意力機制面臨一個殘酷的擴展(scaling)問題:每當上下文長度加倍,運算成本就大約會四倍。DeepSeek 的解法包含兩種互補的方法:

Compressed Sparse Attention(壓縮稀疏注意力) 以兩個步驟運作。首先,它會壓縮 token 群——例如把每 4 個 token 壓縮成一個條目。接著,並不是對所有壓縮後的條目都進行注意力計算,而是使用「Lightning Indexer」為任何給定查詢(query)只選取最相關的結果。這使得模型的注意力範圍從百萬 tokens 降低到一個更小的、由重要片段(chunks)構成的集合。

Heavily Compressed Attention(高度壓縮注意力) 採取更激進的做法,在不進行稀疏選擇(sparse selection)的情況下,直接把每 128 個 token 折疊成一個條目。雖然這會犧牲細緻度,但它提供了超低成本的全域視圖(global view)。兩種 attention 類型在交錯的層(alternating layers)中運行,使模型能同時保留細節與概覽。

Attention mechanism comparison chart

結果是:V4-Pro 的運算量只用到了其前代(predecessor)(V3.2) 所需運算的 27%。KV cache——用於追蹤上下文的記憶體——降至 V3.2 的 10%。V4-Flash 進一步提升效率:相對於 V3.2,運算量為 10%,記憶體為 7%。

基準效能表現與競爭地位

DeepSeek 發布了針對 GPT-5.4 與 Gemini-3.1-Pro 的完整基準比較(benchmark comparisons),包含 V4-Pro 落後競品的領域。在推理(reasoning)任務上,根據 DeepSeek 的技術報告,V4-Pro 的推理能力比 GPT-5.4 和 Gemini-3.1-Pro 落後約三到六個月。

V4-Pro 的優勢在於:

  • Codeforces (競賽程式設計):V4-Pro 得分 3,206,約在所有真實人類競賽參與者中排名第 23
  • Apex Shortlist (精選數學與 STEM 問題):通過率 90.2%,高於 Opus 4.6 的 85.9% 與 GPT-5.4 的 78.1%
  • SWE-Verified (GitHub 問題解決):80.6%,與 Claude Opus 4.6 相同

V4-Pro 的劣勢在於:

  • MMLU-Pro (多任務):Gemini-3.1-Pro 為 91.0%,而 V4-Pro 為 87.5%
  • GPQA Diamond (專家知識):Gemini 為 94.3,而 V4-Pro 為 90.1
  • Humanity’s Last Exam (研究生級):Gemini-3.1-Pro 為 44.4%,而 V4-Pro 為 37.7%

在長上下文任務(long-context tasks)上,V4-Pro 領先開源模型,並在 CorpusQA (模擬在百萬 token 下進行真實文件分析) 上擊敗 Gemini-3.1-Pro,但在 MRCR 上落後於 Claude Opus 4.6;MRCR 衡量的是從深藏於長文本中的特定資訊進行檢索(retrieval)。

Agentic 與程式能力

V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 程式碼工具中運行。根據 DeepSeek 對 85 位開發者(使用 V4-Pro 作為其主要程式代理 agent)的內部調查,其中 52% 表示它已準備好成為他們的預設模型(default model),39% 偏向於「是」,而少於 9% 表示「否」。DeepSeek 的內部測試顯示,V4-Pro 在 agentic 程式任務上優於 Claude Sonnet,並接近 Claude Opus 4.5。

Artificial Analysis 在 GDPval-AA 上將 V4-Pro 排名為所有開放權重模型中的第一名;GDPval-AA 是一項基準,用於測試在財經、法律與研究任務中具有經濟價值的知識工作(economically valuable knowledge work)。V4-Pro-Max 得分 1,554 Elo,領先 GLM-5.1 (1,535) 與 MiniMax 的 M2.7 (1,514)。在相同基準上,Claude Opus 4.6 得分 1,619。

GDPval-AA benchmark ranking chart

V4 引入「交錯式思考(interleaved thinking)」:能在各次工具呼叫(tool calls)之間保留完整的思考鏈(chain of thought)。在先前的模型中,當代理發出多次工具呼叫(例如搜尋網頁、執行程式碼,然後再搜尋)時,模型的推理上下文(reasoning context)會在各輪之間被清空(flushed)。V4 會在步驟之間維持推理連續性,避免複雜的自動化工作流程中發生上下文遺失。

競爭格局與定價背景

V4 的發布正值 AI 領域出現顯著動態之際。Anthropic 於 2026 年 4 月 16 日發布 Claude Opus 4.7。OpenAI 的 GPT-5.5 於 2026 年 4 月 23 日推出,GPT-5.5 Pro 的定價為每百萬輸入 tokens $30 與每百萬輸出 tokens $180 。在 Terminal Bench 2.0 (上的表現,GPT-5.5 優於 V4-Pro;該基準的成績為 82.7% 對比 70.0%),測試的是複雜的命令列代理(command-line agent)工作流程。

小米於 2026 年 4 月 22 日發布 MiMo V2.5 Pro,提供完整多模態能力 (image, audio, video),其定價為每百萬 tokens 的 $1 input 與 $3 output。騰訊(Tencent)則在 GPT-5.5 同一天發布 Hy3。

以定價觀點來看:Cline 的 CEO Saoud Rizwan 指出,若 Uber 在 2026 年使用 DeepSeek 而非 Claude,其 AI 預算——據稱足夠使用四個月——原本可延續七年。

Pricing comparison and Uber budget analysis

部署與可用性

V4-Pro 與 V4-Flash 皆採 MIT 授權,並可在 Hugging Face 取得。就目前而言,這些模型僅支援文字(text-only);DeepSeek 表示正在開發多模態能力。兩個模型都可以在本地硬體上免費運行,或依公司需求進行客製化。

DeepSeek 既有的 deepseek-chat 與 deepseek-reasoner 端點(endpoints)目前分別在非思考(non-thinking)與思考(thinking)模式下已導向 V4-Flash。舊的 deepseek-chat 與 deepseek-reasoner 端點將於 2026 年 7 月 24 日退役。

DeepSeek 部分使用華為 Ascend 晶片來訓練 V4,從而繞過美國的出口限制。該公司表示,等到 2026 年後續將有 950 個新的超級節點(supernodes)上線後,Pro 模型已經很低的價格還會進一步下降。

實務上的影響

對企業而言,定價結構可能會改變成本效益計算。以每百萬輸入 tokens 價格 $1.74 便能在開源基準中領先的模型,使大規模文件處理、法律審查以及程式碼生成(code generation)流程,較六個月前顯著便宜。百萬 token 的上下文允許整套程式碼庫或監管文件能在單次請求中被處理,而不必切分成多次呼叫。

對開發者與獨立建置者(solo builders)而言,V4-Flash 是主要考量。以每百萬 tokens 的 $0.14 輸入與 $0.28 輸出計算,它比一年前被視為預算選項(budget options)的模型更便宜,同時能處理 Pro 版本所能完成的大多數任務。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
APR Daydreamvip
· 8小時前
希望官方給一個可審計的行動日誌/回放機制,不然出了問題很難追責,尤其是自動操作資產類帳戶。
查看原文回復0
PaperHandsProvip
· 8小時前
現實應用中的“理解意圖”才是難點,希望別再出現你想訂機票它去改你簡歷的尷尬。
查看原文回復0
半剖多肉vip
· 8小時前
有點期待,也有點怕:能點鼠標就等於能做很多“人類點擊”才能做的事,風控和反作弊得升級。
查看原文回復0
柚子味的冷静vip
· 8小時前
這波對 Web3 也有影響吧,自動化鏈上操作、簽名流程、錢包交互要是能無縫做,產品形態會變。
查看原文回復0
玻璃穹顶里的星vip
· 9小時前
API 和價格先別急,先看看它在複雜桌面環境裡能不能抗彈窗、抗多窗口、抗網路抖動。
查看原文回復0
GateUser-b665e41cvip
· 9小時前
感覺從“能說會寫”進化到“能做能交付”,下一步就是給它更好的記憶和任務管理了。
查看原文回復0
Lint Collectorvip
· 9小時前
如果真能跨應用串聯:瀏覽器查資料→Excel 處理→PPT 出稿→郵箱發送,那就是辦公全鏈路閉環。
查看原文回復0
DegenWithNotebookvip
· 9小時前
終於在桌面原生操作了?這下真要當“數字實習生”了。
查看原文回復0