根据 Ollama 官方 4 月 27 日推文,由中国 AI 公司 DeepSeek 于 4 月 24 日发布的旗舰模型 DeepSeek V4 Pro,正式以云端模式进驻 Ollama 官方目录,使用者只需一行指令即可从 Claude Code、Hermes Agent、OpenClaw、Codex、OpenCode 等主流 agent 工具调用该模型。这是 Ollama 整合主流大模型最快速的一次同步——从 DeepSeek 释出权重到 Ollama Cloud 上线,仅相隔三天。
DeepSeek V4 Pro:1.6T 参数、1M context
V4 Pro 采用 Mixture-of-Experts 架构,总参数规模 1.6 兆(49 亿活跃参数),上下文窗口 1M token。第三方基准 Artificial Analysis 指出,V4 Pro 在 SWE-bench(80.6%)、LiveCodeBench(93.5%)、Terminal-Bench(67.9%)等程序编写基准上与 Kimi K2.6 并列开源模型前段班,整体 Intelligence Index 落后 Kimi K2.6 一个身位。
同期 DeepSeek 也释出较轻量的 V4 Flash 模型,两者皆采用 MIT 授权开源,可从 Hugging Face 下载权重。
Ollama Cloud 云端推理、权重不下载到本机
deepseek-v4-pro:cloud 为 Ollama Cloud 模型——推理在 Ollama 云端进行、权重不下载到使用者本机。这是 Ollama 处理超大模型的标准作法,先前 Kimi K2.6 也采用同样方式收录。对使用者而言,最大的优势是不需自备数十张 GPU 即可调用旗舰级模型;缺点是仍需网络连接,并依 Ollama 云端负载分配运算资源。
若要完全本地执行,须自 Hugging Face 取得 deepseek-ai/DeepSeek-V4-Pro 权重,搭配 INT4 量化版本(如 Unsloth 释出的 GGUF)与多卡 GPU 配置才有可行性。一般消费级硬件不足以承载完整模型。
一行指令串接 Claude Code、Hermes Agent、OpenClaw
Ollama 同步释出对主流 agent 工具的整合 launcher 指令:
意义在于:开发者过去在 Claude Code 内若想换用 DeepSeek,需透过 OpenAI 兼容 API 自行串接、处理 endpoint 与认证;现在透过 Ollama 一行指令即可完成。对 Claude Code 重度使用者而言,这提供了一条把 Anthropic 模型替换为 DeepSeek(或同理可换 Kimi)以降低成本的快速路径。
早期测试者反馈:速度从 30 tok/s 到峰值 1.1 tok/s
推文下方社群讨论显示,云端推理的速度视 Ollama 云端负载而异。多位早期测试者回报峰值时段速度偏慢,从常态 30 tokens/s 降至 1.1 tokens/s 级别,使用者 @benvargas 直接贴出截图抱怨“Need More Compute”。Ollama 在另一条回复中坦承官方团队“也在玩这個模型”,意指流量仍处于探索期,尚未做完整的容量规划。
对追求稳定产线速度的开发者,目前的建议是:用云端模式作为原型测试与成本评估,正式产品仍需自建 GPU 推理设施或选择商用 API。Ollama 完整教学已同步补上 V4 Pro 条目与云端/本地的取舍说明。
这篇文章 DeepSeek V4 Pro 上 Ollama Cloud:Claude Code 一键串接 最早出现于 链新闻 ABMedia。
相关快讯
郭明錤:OpenAI 要做 AI Agent 手机,联发科、高通、立讯成关键供应链
腾讯云 QClaw 接入 Hermes 框架,支持 DeepSeek-V4 Pro 等多模型切换
xAI Grok Voice 接管 Starlink 客服热线,70% 来电自动结案
DeepRoute.ai 进阶辅助驾驶系统突破 30 万车辆部署:2026 目标 100 万城市 NOA 车队
DeepSeek V4-Flash 登上 Ollama Cloud、美國主機:Claude Code、OpenClaw 一鍵串接