Según los tuits oficiales de Ollama del 27 de abril, el modelo insignia DeepSeek V4 Pro, publicado el 24 de abril por la empresa de IA de China DeepSeek, ya ha ingresado oficialmente en el catálogo oficial de Ollama en modo cloud; los usuarios solo necesitan un comando de una línea para llamar a ese modelo desde herramientas de agentes populares como Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode, etc. Esta es una sincronización más rápida de Ollama al integrar modelos grandes dominantes: desde el lanzamiento de los pesos de DeepSeek hasta el arranque en Ollama Cloud, con solo tres días de diferencia.
DeepSeek V4 Pro:1.6T parámetros, 1M context
V4 Pro utiliza una arquitectura Mixture-of-Experts; el tamaño total de parámetros es de 1,6 billones (49 mil millones de parámetros activos), con una ventana de contexto de 1M tokens. Un análisis de referencia de terceros, Artificial Analysis, indica que V4 Pro, en benchmarks de escritura de código como SWE-bench (80.6%), LiveCodeBench (93.5%) y Terminal-Bench (67.9%), empata con el grupo de cabeza de modelos open source junto con el modelo Kimi K2.6; en general, el Intelligence Index queda un paso por detrás de Kimi K2.6.
En el mismo periodo, DeepSeek también lanzó el modelo más ligero V4 Flash; ambos usan licencia MIT y el código está abierto, y los pesos se pueden descargar desde Hugging Face.
Ollama Cloud inferencia en la nube, no descarga los pesos en local
deepseek-v4-pro:cloud es un modelo de Ollama Cloud: la inferencia se realiza en la nube de Ollama y los pesos no se descargan en el equipo del usuario. Esta es la práctica estándar de Ollama para manejar modelos extremadamente grandes; anteriormente Kimi K2.6 también se recopiló de la misma manera. Para los usuarios, la mayor ventaja es no tener que contar con decenas de GPU para llamar a un modelo de nivel insignia; la desventaja es que aún se necesita conexión a la red y la asignación de recursos de cómputo depende de la carga en la nube de Ollama.
Si se desea ejecutar completamente en local, es necesario obtener los pesos deepseek-ai/DeepSeek-V4-Pro desde Hugging Face, junto con una versión cuantizada INT4 (como el GGUF publicado por Unsloth) y una configuración de múltiples GPU para que sea viable. En general, el hardware de consumo no es suficiente para soportar el modelo completo.
Un comando conecta Claude Code、Hermes Agent、OpenClaw
Ollama sincroniza el lanzamiento de instrucciones launcher para la integración con herramientas de agentes populares:
El significado es: antes, si los desarrolladores usaban intensivamente Claude Code y querían cambiar a DeepSeek, necesitaban hacerlo mediante la API compatible con OpenAI, conectando por su cuenta y gestionando endpoints y autenticación; ahora, con un comando de una línea mediante Ollama, se puede completar. Para usuarios intensivos de Claude Code, esto ofrece una vía rápida para reemplazar el modelo de Anthropic por DeepSeek (o de forma equivalente reemplazar Kimi) y reducir costos.
Reacción de los primeros probadores: la velocidad pasa de 30 tok/s a un pico de 1.1 tok/s
Los debates en la comunidad bajo el tuit muestran que la velocidad de la inferencia en la nube depende de la carga de la nube de Ollama. Varios probadores reportaron que en horarios pico la velocidad era lenta: bajó de los 30 tokens/s habituales a niveles de 1.1 tokens/s; el usuario @benvargas incluso publicó una captura para quejarse de “Need More Compute”. Ollama, en otra respuesta, admitió que el equipo oficial “también está jugando con este modelo”, lo que sugiere que el tráfico aún está en etapa de exploración y todavía no se ha hecho una planificación completa de capacidad.
Para desarrolladores que buscan una velocidad estable en la línea de producción, la recomendación actual es: usar el modo cloud como pruebas de prototipo y evaluación de costos; los productos formales aún requieren montar su propia infraestructura de inferencia con GPU o elegir una API comercial. El tutorial completo de Ollama también se ha actualizado, añadiendo las secciones para V4 Pro y la explicación de las concesiones entre cloud y local.
Este artículo DeepSeek V4 Pro en Ollama Cloud:Claude Code conexión en un clic apareció por primera vez en CadenaNews ABMedia.
Related News
Guo Ming-chi: OpenAI quiere hacer un teléfono móvil con AI Agent; MediaTek, Qualcomm y Luxshare Precision se convierten en la cadena de suministro clave
Tencent Cloud QClaw se integra con el marco Hermes, admite el cambio entre múltiples modelos como DeepSeek-V4 Pro
xAI Grok Voice se hace cargo de la línea de atención al cliente de Starlink, 70% de las llamadas se resuelven automáticamente en el acto
DeepRoute.ai sistema avanzado de asistencia a la conducción supera las 300.000 unidades desplegadas: objetivo 2026 de 1.000.000 flotas urbanas NOA
DeepSeek V4-Flash se lanza en Ollama Cloud, servidor en EE. UU.: Claude Code, OpenClaw con un clic para conectar