O DeepSeek lançou versões de prévia do DeepSeek-V4-Pro e do DeepSeek-V4-Flash em 24 de abril de 2026, ambos modelos abertos com pesos (open-weight) e janelas de contexto de um milhão de tokens, com preços significativamente abaixo de alternativas ocidentais comparáveis. O modelo V4-Pro custa US$ 1,74 por milhão de tokens de entrada e US$ 3,48 por milhão de tokens de saída—aproximadamente 1/20 do preço do Claude Opus 4.7 e 98% a menos do que o GPT-5.5 Pro, de acordo com as especificações oficiais da empresa.

Arquitetura do Modelo e Escala

O DeepSeek-V4-Pro tem 1,6 trilhão de parâmetros totais, tornando-o o maior modelo open-source no mercado de LLMs até hoje. No entanto, apenas 49 bilhões de parâmetros são ativados por passagem de inferência, usando o que a DeepSeek chama de abordagem Mixture-of-Experts, refinada desde a V3. Esse design permite que o modelo completo fique “dormente”, enquanto apenas fatias relevantes ativam para qualquer solicitação dada, reduzindo custos de computação enquanto mantém capacidade de conhecimento.

O DeepSeek-V4-Flash opera em uma escala menor, com 284 bilhões de parâmetros totais e 13 bilhões de parâmetros ativos. De acordo com os benchmarks da DeepSeek, ele “atinge desempenho de raciocínio comparável ao da versão Pro quando recebe um orçamento maior de pensamento”.

Ambos os modelos suportam um milhão de tokens de contexto como recurso padrão—aproximadamente 750.000 palavras, ou aproximadamente toda a trilogia de “O Senhor dos Anéis” mais texto adicional.

Inovação Técnica: Mecanismos de Atenção em Escala

A DeepSeek resolveu o problema de escalabilidade computacional inerente ao processamento de longos contextos inventando dois novos tipos de atenção, como detalhado no artigo técnico da empresa disponível no GitHub.

Mecanismos de atenção padrão de IA enfrentam um problema brutal de escalabilidade: toda vez que o comprimento do contexto dobra, o custo de computação aumenta aproximadamente quatro vezes. A solução da DeepSeek envolve duas abordagens complementares:

Atenção Sparsely Comprimida funciona em dois passos. Primeiro, ela comprime grupos de tokens—por exemplo, a cada 4 tokens—em uma única entrada. Depois, em vez de fazer atenção a todas as entradas comprimidas, ela usa um “Lightning Indexer” para selecionar apenas os resultados mais relevantes para qualquer consulta dada. Isso reduz o escopo de atenção do modelo de um milhão de tokens para um conjunto muito menor de chunks importantes.

Atenção Pesadamente Comprimida adota uma abordagem mais agressiva, colapsando cada 128 tokens em uma única entrada sem seleção esparsa. Embora isso perca detalhes de granularidade fina, fornece uma visão global extremamente barata. Os dois tipos de atenção rodam em camadas alternadas, permitindo que o modelo mantenha tanto detalhes quanto visão geral.

O resultado: a V4-Pro usa 27% da computação que o seu antecessor (V3.2) exigia. A KV cache—memória necessária para rastrear contexto—cai para 10% da V3.2. A V4-Flash empurra a eficiência ainda mais: 10% de computação e 7% de memória em comparação com a V3.2.

Desempenho em Benchmarks e Posição Competitiva

A DeepSeek publicou comparações abrangentes de benchmarks contra GPT-5.4 e Gemini-3.1-Pro, incluindo áreas em que a V4-Pro fica atrás dos concorrentes. Em tarefas de raciocínio, o raciocínio da V4-Pro fica atrás do GPT-5.4 e do Gemini-3.1-Pro em aproximadamente três a seis meses, de acordo com o relatório técnico da DeepSeek.

Onde a V4-Pro lidera:

Codeforces (programação competitiva): A V4-Pro marcou 3.206, ficando por volta do 23º lugar entre participantes humanos reais de competições
Apex Shortlist (problemas de matemática e STEM curados): taxa de aprovação de 90,2% versus 85,9% do Opus 4.6 e 78,1% do GPT-5.4
SWE-Verified (resolução de issue no GitHub): 80,6%, empatando com Claude Opus 4.6

Onde a V4-Pro fica para trás:

MMLU-Pro (multitasking): Gemini-3.1-Pro com 91,0% versus V4-Pro com 87,5%
GPQA Diamond (conhecimento especializado): Gemini com 94,3 versus V4-Pro com 90,1
Humanity’s Last Exam (nível de graduação): Gemini-3.1-Pro com 44,4% versus V4-Pro com 37,7%

Em tarefas de longo contexto, a V4-Pro lidera modelos open-source e supera o Gemini-3.1-Pro no CorpusQA (simulando análise real de documentos em um milhão de tokens), mas perde para o Claude Opus 4.6 no MRCR, que mede a recuperação de informações específicas enterradas profundamente em textos longos.

Capacidades de Agentes e de Codificação

A V4-Pro pode rodar no Claude Code, OpenCode e outras ferramentas de codificação de IA. De acordo com uma pesquisa interna da DeepSeek com 85 desenvolvedores que usaram a V4-Pro como seu agente principal de codificação, 52% disseram que ela estava pronta para ser seu modelo padrão, 39% tenderam a dizer sim, e menos de 9% disseram não. Os testes internos da DeepSeek indicaram que a V4-Pro supera Claude Sonnet e se aproxima de Claude Opus 4.5 em tarefas de codificação agentica.

A Artificial Analysis classificou a V4-Pro em primeiro lugar entre todos os modelos open-weight no GDPval-AA, um benchmark que testa trabalho de conhecimento economicamente valioso em tarefas de finanças, jurídicas e pesquisa. A V4-Pro-Max marcou 1.554 Elo, à frente do GLM-5.1 (1.535) e do MiniMax’s M2.7 (1.514). O Claude Opus 4.6 marca 1.619 no mesmo benchmark.

A V4 introduz “pensamento intercalado”, que retém toda a cadeia de pensamento completa ao longo das chamadas de ferramenta. Em modelos anteriores, quando um agente fazia múltiplas chamadas de ferramenta—como buscar na web, executar código e depois buscar novamente—o contexto de raciocínio do modelo era descartado entre rodadas. A V4 mantém continuidade de raciocínio entre etapas, evitando perda de contexto em fluxos de trabalho automatizados complexos.

Cenário Competitivo e Contexto de Preços

O lançamento da V4 chega em meio a uma atividade significativa no setor de IA. A Anthropic enviou o Claude Opus 4.7 em 16 de abril de 2026. O GPT-5.5 da OpenAI foi lançado em 23 de abril de 2026, com o GPT-5.5 Pro custando $30 por milhão de tokens de entrada e $180 por milhão de tokens de saída. O GPT-5.5 supera a V4-Pro no Terminal Bench 2.0 (82,7% versus 70,0%), que testa fluxos de trabalho complexos de agentes via linha de comando.

A Xiaomi lançou o MiMo V2.5 Pro em 22 de abril de 2026, oferecendo capacidades multimodais completas (imagem, áudio, vídeo) a $1 de entrada e $3 de saída por milhão de tokens. A Tencent lançou a Hy3 no mesmo dia do GPT-5.5.

Para ter perspectiva de preços: o CEO da Cline, Saoud Rizwan, observou que se a Uber tivesse usado DeepSeek em vez de Claude, o orçamento de IA de 2026—supostamente suficiente para quatro meses de uso—teria durado sete anos.

Implantação e Disponibilidade

Tanto a V4-Pro quanto a V4-Flash têm licença MIT e estão disponíveis no Hugging Face. Os modelos são somente texto por enquanto; a DeepSeek afirmou que está trabalhando em capacidades multimodais. Ambos os modelos podem ser executados gratuitamente em hardware local ou personalizados com base nas necessidades da empresa.

Os endpoints existentes deepseek-chat e deepseek-reasoner da DeepSeek já roteiam para a V4-Flash nos modos não-pensamento e pensamento, respectivamente. Os antigos endpoints deepseek-chat e deepseek-reasoner serão aposentados em 24 de julho de 2026.

A DeepSeek treinou a V4 parcialmente usando chips Huawei Ascend, contornando restrições de exportação dos EUA. A empresa afirmou que, assim que 950 novos supernós entrarem online mais tarde em 2026, o preço já baixo do modelo Pro cairá ainda mais.

Implicações Práticas

Para empresas, a estrutura de preços pode alterar cálculos de custo-benefício. Um modelo que lidera benchmarks open-source a US$ 1,74 por milhão de tokens de entrada torna pipelines de processamento em larga escala de documentos, revisão jurídica e geração de código substancialmente mais baratos do que seis meses antes. O contexto de um milhão de tokens permite que bases de código inteiras ou documentos regulatórios sejam processados em uma única solicitação em vez de serem fragmentados em múltiplas chamadas.

Para desenvolvedores e construtores solo, a V4-Flash é a consideração principal. Com US$ 0,14 de entrada e US$ 0,28 de saída por milhão de tokens, ela é mais barata do que modelos considerados opções econômicas um ano atrás, enquanto lida com a maioria das tarefas que a versão Pro gerencia.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

AprDaydream

· 6h atrás

Espero que as autoridades forneçam um mecanismo de registro de ações/audição auditável, caso contrário, será difícil responsabilizar alguém em caso de problemas, especialmente em contas de ativos operadas automaticamente.

Ver originalResponder0

PaperHandsPro

· 6h atrás

A "compreensão de intenção" na aplicação prática é realmente o ponto difícil, espero que não volte a acontecer aquela situação constrangedora de você querer reservar um voo e ela alterar seu currículo.

Ver originalResponder0

Half-SectionedSucculent

· 6h atrás

Estou um pouco ansioso, e um pouco assustado: poder clicar com o mouse equivale a fazer muitas das coisas que só podem ser feitas com "cliques humanos", então o controle de risco e a luta contra fraudes precisam ser aprimorados.

Ver originalResponder0

ACalmnessWithAHintOfPomelo

· 7h atrás

Essa onda também impacta o Web3, né? Se operações automatizadas na cadeia, processos de assinatura e interações com carteiras puderem ser feitos de forma fluida, a forma do produto vai mudar.

Ver originalResponder0

StarsInTheGlassDome

· 7h atrás

API e preços, primeiro não se apresse, primeiro veja se ele consegue resistir a janelas pop-up, múltiplas janelas e oscilações de rede em ambientes desktop complexos.

Ver originalResponder0

GateUser-b665e41c

· 7h atrás

Sentir a evolução de "saber falar e escrever" para "saber fazer e entregar", o próximo passo é fornecer a ela uma memória melhor e gerenciamento de tarefas.

Ver originalResponder0

LintCollector

· 7h atrás

Se realmente for possível conectar entre aplicativos: pesquisar no navegador → processar no Excel → criar apresentação no PPT → enviar por e-mail, então será um ciclo completo de fluxo de trabalho de escritório.

Ver originalResponder0

DegenWithNotebook

· 7h atrás

Finalmente chegou à operação nativa na área de trabalho? Agora realmente vai ser um "estagiário digital".

Ver originalResponder0