根據 TechCrunch 報導,中國 AI 實驗室 DeepSeek 正在洽談籌集其首輪資金,估值報 450 億美元。這項估值較僅在幾週前的先前估計 200 億美元大幅成長,原因是外界關注該公司的 AI 模型因訓練成本較低而備受矚目。創辦人 梁文峰(Liang Wenfeng)持有公司近 90% 的股權。
在競爭對手試圖透過以公司股份作為誘因來招募研究人員之後,DeepSeek 決定尋求融資。中國集成電路產業投資基金(China Integrated Circuit Industry Investment Fund)可能主導此輪募資,同時也有報導指出騰訊(Tencent)與阿里巴巴(Alibaba)正在洽談參與。
根據該公司說法,DeepSeek 的 V4 模型在基準測試中的表現據報與 OpenAI 和 Anthropic 的頂級模型旗鼓相當。競爭優勢也延伸至定價:V4-Pro 每百萬輸入 token 的費用為 1.74 美元,而 V4-Flash 每百萬輸入 token 約為 0.14 美元——明顯低於可比的美國模型定價。
較低的成本結構源自 DeepSeek 的計算效率高架構,其中包含混合專家(mixture-of-experts,MoE)設計:每個任務只啟用模型的一部分,從而在推論期間降低運算需求。根據 DeepSeek,V4-Pro 使用的計算功率為 V3.2 的 27%,所需記憶體為 10%。
DeepSeek 的募資發生在中國正努力建置更具自給自足的 AI 基礎設施之際,原因是美國對先進晶片施加出口管制。V4 是 DeepSeek 首個針對中國晶片(例如華為(Huawei)的 Ascend 系列)調校的模型;不過該公司的技術報告顯示,中國晶片可用於推論,但訓練可能仍主要依賴 Nvidia 硬體。
DeepSeek 也發布開放權重模型——即經過訓練的參數,供他人使用、微調並部署——使 AI 開發不再僅限於美國主導。這項策略強調演算法效率優於取得最先進的美國硬體獨家存取權;儘管如此,中國的 AI 推進仍部分依賴 Nvidia 硬體。
Related News