O DeepSeek lançou versões de prévia do DeepSeek-V4-Pro e do DeepSeek-V4-Flash em 24 de abril de 2026, ambos modelos abertos com pesos (open-weight) e janelas de contexto de um milhão de tokens, com preços significativamente abaixo de alternativas ocidentais comparáveis. O modelo V4-Pro custa US$ 1,74 por milhão de tokens de entrada e US$ 3,48 por milhão de tokens de saída—aproximadamente 1/20 do preço do Claude Opus 4.7 e 98% a menos do que o GPT-5.5 Pro, de acordo com as especificações oficiais da empresa.
O DeepSeek-V4-Pro tem 1,6 trilhão de parâmetros totais, tornando-o o maior modelo open-source no mercado de LLMs até hoje. No entanto, apenas 49 bilhões de parâmetros são ativados por passagem de inferência, usando o que a DeepSeek chama de abordagem Mixture-of-Experts, refinada desde a V3. Esse design permite que o modelo completo fique “dormente”, enquanto apenas fatias relevantes ativam para qualquer solicitação dada, reduzindo custos de computação enquanto mantém capacidade de conhecimento.
O DeepSeek-V4-Flash opera em uma escala menor, com 284 bilhões de parâmetros totais e 13 bilhões de parâmetros ativos. De acordo com os benchmarks da DeepSeek, ele “atinge desempenho de raciocínio comparável ao da versão Pro quando recebe um orçamento maior de pensamento”.
Ambos os modelos suportam um milhão de tokens de contexto como recurso padrão—aproximadamente 750.000 palavras, ou aproximadamente toda a trilogia de “O Senhor dos Anéis” mais texto adicional.
A DeepSeek resolveu o problema de escalabilidade computacional inerente ao processamento de longos contextos inventando dois novos tipos de atenção, como detalhado no artigo técnico da empresa disponível no GitHub.
Mecanismos de atenção padrão de IA enfrentam um problema brutal de escalabilidade: toda vez que o comprimento do contexto dobra, o custo de computação aumenta aproximadamente quatro vezes. A solução da DeepSeek envolve duas abordagens complementares:
Atenção Sparsely Comprimida funciona em dois passos. Primeiro, ela comprime grupos de tokens—por exemplo, a cada 4 tokens—em uma única entrada. Depois, em vez de fazer atenção a todas as entradas comprimidas, ela usa um “Lightning Indexer” para selecionar apenas os resultados mais relevantes para qualquer consulta dada. Isso reduz o escopo de atenção do modelo de um milhão de tokens para um conjunto muito menor de chunks importantes.
Atenção Pesadamente Comprimida adota uma abordagem mais agressiva, colapsando cada 128 tokens em uma única entrada sem seleção esparsa. Embora isso perca detalhes de granularidade fina, fornece uma visão global extremamente barata. Os dois tipos de atenção rodam em camadas alternadas, permitindo que o modelo mantenha tanto detalhes quanto visão geral.
O resultado: a V4-Pro usa 27% da computação que o seu antecessor (V3.2) exigia. A KV cache—memória necessária para rastrear contexto—cai para 10% da V3.2. A V4-Flash empurra a eficiência ainda mais: 10% de computação e 7% de memória em comparação com a V3.2.
A DeepSeek publicou comparações abrangentes de benchmarks contra GPT-5.4 e Gemini-3.1-Pro, incluindo áreas em que a V4-Pro fica atrás dos concorrentes. Em tarefas de raciocínio, o raciocínio da V4-Pro fica atrás do GPT-5.4 e do Gemini-3.1-Pro em aproximadamente três a seis meses, de acordo com o relatório técnico da DeepSeek.
Onde a V4-Pro lidera:
Onde a V4-Pro fica para trás:
Em tarefas de longo contexto, a V4-Pro lidera modelos open-source e supera o Gemini-3.1-Pro no CorpusQA (simulando análise real de documentos em um milhão de tokens), mas perde para o Claude Opus 4.6 no MRCR, que mede a recuperação de informações específicas enterradas profundamente em textos longos.
A V4-Pro pode rodar no Claude Code, OpenCode e outras ferramentas de codificação de IA. De acordo com uma pesquisa interna da DeepSeek com 85 desenvolvedores que usaram a V4-Pro como seu agente principal de codificação, 52% disseram que ela estava pronta para ser seu modelo padrão, 39% tenderam a dizer sim, e menos de 9% disseram não. Os testes internos da DeepSeek indicaram que a V4-Pro supera Claude Sonnet e se aproxima de Claude Opus 4.5 em tarefas de codificação agentica.
A Artificial Analysis classificou a V4-Pro em primeiro lugar entre todos os modelos open-weight no GDPval-AA, um benchmark que testa trabalho de conhecimento economicamente valioso em tarefas de finanças, jurídicas e pesquisa. A V4-Pro-Max marcou 1.554 Elo, à frente do GLM-5.1 (1.535) e do MiniMax’s M2.7 (1.514). O Claude Opus 4.6 marca 1.619 no mesmo benchmark.
A V4 introduz “pensamento intercalado”, que retém toda a cadeia de pensamento completa ao longo das chamadas de ferramenta. Em modelos anteriores, quando um agente fazia múltiplas chamadas de ferramenta—como buscar na web, executar código e depois buscar novamente—o contexto de raciocínio do modelo era descartado entre rodadas. A V4 mantém continuidade de raciocínio entre etapas, evitando perda de contexto em fluxos de trabalho automatizados complexos.
O lançamento da V4 chega em meio a uma atividade significativa no setor de IA. A Anthropic enviou o Claude Opus 4.7 em 16 de abril de 2026. O GPT-5.5 da OpenAI foi lançado em 23 de abril de 2026, com o GPT-5.5 Pro custando $30 por milhão de tokens de entrada e $180 por milhão de tokens de saída. O GPT-5.5 supera a V4-Pro no Terminal Bench 2.0 (82,7% versus 70,0%), que testa fluxos de trabalho complexos de agentes via linha de comando.
A Xiaomi lançou o MiMo V2.5 Pro em 22 de abril de 2026, oferecendo capacidades multimodais completas (imagem, áudio, vídeo) a $1 de entrada e $3 de saída por milhão de tokens. A Tencent lançou a Hy3 no mesmo dia do GPT-5.5.
Para ter perspectiva de preços: o CEO da Cline, Saoud Rizwan, observou que se a Uber tivesse usado DeepSeek em vez de Claude, o orçamento de IA de 2026—supostamente suficiente para quatro meses de uso—teria durado sete anos.
Tanto a V4-Pro quanto a V4-Flash têm licença MIT e estão disponíveis no Hugging Face. Os modelos são somente texto por enquanto; a DeepSeek afirmou que está trabalhando em capacidades multimodais. Ambos os modelos podem ser executados gratuitamente em hardware local ou personalizados com base nas necessidades da empresa.
Os endpoints existentes deepseek-chat e deepseek-reasoner da DeepSeek já roteiam para a V4-Flash nos modos não-pensamento e pensamento, respectivamente. Os antigos endpoints deepseek-chat e deepseek-reasoner serão aposentados em 24 de julho de 2026.
A DeepSeek treinou a V4 parcialmente usando chips Huawei Ascend, contornando restrições de exportação dos EUA. A empresa afirmou que, assim que 950 novos supernós entrarem online mais tarde em 2026, o preço já baixo do modelo Pro cairá ainda mais.
Para empresas, a estrutura de preços pode alterar cálculos de custo-benefício. Um modelo que lidera benchmarks open-source a US$ 1,74 por milhão de tokens de entrada torna pipelines de processamento em larga escala de documentos, revisão jurídica e geração de código substancialmente mais baratos do que seis meses antes. O contexto de um milhão de tokens permite que bases de código inteiras ou documentos regulatórios sejam processados em uma única solicitação em vez de serem fragmentados em múltiplas chamadas.
Para desenvolvedores e construtores solo, a V4-Flash é a consideração principal. Com US$ 0,14 de entrada e US$ 0,28 de saída por milhão de tokens, ela é mais barata do que modelos considerados opções econômicas um ano atrás, enquanto lida com a maioria das tarefas que a versão Pro gerencia.