
DeepSeek lanzó oficialmente el paquete en vista previa de V4 el 24 de abril, con código abierto bajo una licencia MIT; los pesos del modelo ya se han sincronizado y publicado en Hugging Face y ModelScope. Según el informe técnico de DeepSeek V4, V4-Pro-Max (modo de máxima potencia de razonamiento) obtuvo 3206 puntos en el benchmark de Codeforces, superando a GPT-5.4.
Según el informe técnico de DeepSeek V4, la serie V4 incluye dos modelos de Mixture of Experts (MoE):
V4-Pro: 1.6T de parámetros totales, 49B activados por token, admite un contexto de 1M tokens
V4-Flash: 284B de parámetros totales, 13B activados por token, también admite un contexto de 1M tokens
Según el informe técnico, en un contexto de 1M, los FLOPs de inferencia por token de V4-Pro son solo el 27% de los de V3.2; la caché KV baja al 10% de la de V3.2. Esto se debe principalmente a la actualización de la arquitectura de la atención mixta (CSA de atención dispersa comprimida + HCA de atención comprimida intensiva). El volumen de datos de preentrenamiento supera 32T tokens; la actualización del optimizador de entrenamiento pasa a Muon.
Según el informe técnico de DeepSeek V4, la actualización central del postentrenamiento de V4 consiste en reemplazar por completo la fase de aprendizaje por refuerzo mixto (mixed RL) de V3.2 mediante destilación de estrategias en línea (On-Policy Distillation, OPD). El nuevo proceso se divide en dos pasos: primero, entrenar especialistas por dominio (SFT + aprendizaje por refuerzo GRPO) de forma separada en áreas como matemáticas, código, agentes y seguimiento de instrucciones; luego, usar múltiples maestros OPD para destilar las capacidades de más de una docena de especialistas a un único modelo unificado, alineando mediante logit para evitar los conflictos de capacidades comunes en métodos tradicionales.
El informe también introduce un modelo generativo de recompensas (Generative Reward Model, GRM). Para tareas que son difíciles de verificar con reglas, se entrena con una pequeña cantidad de datos de anotación humana diversificados, haciendo que el modelo asuma simultáneamente las funciones de generación y evaluación.
Según el informe técnico de DeepSeek V4, los resultados comparativos entre V4-Pro-Max y Opus 4.6 Max, GPT-5.4 xHigh y Gemini 3.1 Pro High (sin incluir el GPT-5.5 y Opus 4.7 publicados recientemente):
Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → El más alto del campo
LiveCodeBench: 93.5 → El más alto del campo
SWE Verified: 80.6, con una diferencia de 0.2 puntos porcentuales respecto a Opus 4.6 de 80.8
GPQA Diamond: 90.1, con una diferencia respecto a Gemini 3.1 Pro de 94.3
SimpleQA-Verified: 57.9, con una diferencia respecto a Gemini 3.1 Pro de 75.6
HLE: 37.7, con una diferencia respecto a Gemini 3.1 Pro de 44.4
El informe técnico también señala que las comparaciones anteriores no incluyen el GPT-5.5 y Opus 4.7 publicados recientemente, y que la brecha entre V4 y los modelos cerrados de última generación necesita validación mediante evaluación de terceros.
Según el anuncio oficial del 24 de abril de DeepSeek, la serie V4 se lanza como código abierto bajo una licencia MIT; los pesos del modelo ya se han publicado en Hugging Face y ModelScope, y es aplicable a usos comerciales y académicos.
Según el informe técnico de DeepSeek V4, V4-Pro tiene un total de parámetros de 1.6T, con 49B activados por token; V4-Flash tiene 284B de parámetros totales, con 13B activados por token. Ambos modelos admiten un contexto de 1M tokens.
Según el informe técnico de DeepSeek V4, V4-Pro-Max superó a GPT-5.4 y Gemini 3.1 Pro en dos benchmarks: Codeforces (3206 puntos) y LiveCodeBench (93.5), pero aún quedó por detrás de Gemini 3.1 Pro en benchmarks con alta densidad de conocimiento (GPQA Diamond, SimpleQA-Verified, HLE); el conjunto de comparación no incluye GPT-5.5 y Opus 4.7.
Related News
Tencent lanza en código abierto Hy3, versión preliminar; las pruebas de referencia del código mejoran un 40% con respecto a la generación anterior
OpenAI presenta GPT-5.5: 12M de contexto, el índice AA llega al primer puesto, Terminal-Bench 82,7% reescribe el punto de referencia de los agentes
Google Jules abre la nueva lista de candidatos para la versión, y se reposiciona como una plataforma de desarrollo de productos de extremo a extremo
OpenAI anuncia los ChatGPT Workspace Agents: impulsados por Codex, compartidos por el equipo, integración con Slack
DeepSeek negocia ronda inicial de financiación externa, valoración de 20.000 millones de dólares: nuevo máximo de valoración de la IA en China