Mensagem do Gate News, 22 de abril — o estudante de PhD da Princeton, Yifan Zhang, divulgou no X as especificações técnicas completas do DeepSeek V4, após um prévio em 19 de abril. O V4 tem 1,6 trilhão de parâmetros no total e uma variante leve, o V4-Lite, com 285 bilhões de parâmetros.
O modelo emprega o mecanismo de atenção DSA2, que combina a atenção esparsa DSA anterior do DeepSeek (DeepSeek Sparse Attention) da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeçalho de 512 dimensões, pareado com Sparse Multi-Query Attention (MQA) e Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas com 6 ativados por passagem direta, utilizando o Fused MoE Mega-Kernel. As conexões residuais usam a arquitetura Hyper-Connections.
Detalhes de treinamento revelados pela primeira vez incluem o uso do otimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treinamento de 32K tokens e GRPO (Group Relative Policy Optimization) com correção de divergência KL durante o aprendizado por reforço. A janela de contexto final se estende até 1 milhão de tokens. O modelo é apenas texto.
Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
OpenAI nomeia ex-executivo da Airbnb, Emmanuel Marill, para liderar a expansão na EMEA
A OpenAI contrata Emmanuel Marill como diretor-gerente para a região EMEA para impulsionar a expansão diante de preocupações com soberania e da concorrência da Mistral AI; as assinaturas na EMEA estão em alta.
Resumo: A OpenAI nomeia Emmanuel Marill como diretor-gerente para a Europa, Oriente Médio e África para acelerar a expansão diante de preocupações com soberania e escrutínio da UE. A medida ocorre no contexto de um aumento das assinaturas na EMEA e tem como objetivo construir uma presença local mais forte contra rivais como a Mistral AI.
GateNews5m atrás
Thinking Machines Lab garante acordo de nuvem de vários bilhões de dólares com o Google
Mensagem do Gate News, 23 de abril — Thinking Machines Lab, uma startup de IA fundada pela ex-executiva da OpenAI Mira Murati, assinou um acordo de infraestrutura em nuvem com o Google Cloud avaliado em dezenas de bilhões de dólares dos EUA, em um dígito. O acordo marca a primeira parceria da empresa com um grande provedor de nuvem
GateNews15m atrás
Lucro Operacional da SK Hynix Dispara 406% e Bate Recorde com Demanda por Chips de IA
A SK Hynix publica lucro operacional do 1º trimestre de 37,6 trilhões de won e receita de 52,6 trilhões de won, com alta acentuada impulsionada pela demanda por DRAM e NAND movida por IA e pela mudança para inferência em tempo real.
GateNews1h atrás
OpenAI atinge avaliação pré-IPO de $1 trilhão Trillion Tamanho Amid Race with SpaceX and Anthropic
A OpenAI está prestes a alcançar uma $1T avaliação pré-IPO implícita por meio de apostas on-chain; SpaceX e Anthropic miram avaliações semelhantes à medida que os custos de infraestrutura de IA disparam, impulsionando a receita de assinaturas, enquanto a Anthropic enfrenta confusão sobre preços.
GateNews2h atrás
A valuation da DeepSeek dispara para além de $20 bilhões, enquanto Tencent e Alibaba avaliam investimentos
DeepSeek busca >$20B em meio a discussões de investimento entre a Tencent/Alibaba; a Nvidia alerta que a vantagem das chips nos EUA pode ser enfraquecida pela Huawei; o financiamento em IA continua a disparar com o $1B de Vast Data e investimentos da OpenAI/Anthropic/xAI.
DeepSeek mira uma valuation acima de $20 bilhões enquanto conversa com a Tencent e a Alibaba, ao mesmo tempo em que a Nvidia alerta que a transferência de modelos de IA para chips da Huawei pode corroer a liderança dos EUA. A matéria também destaca uma alta global no financiamento de IA, incluindo o $1 bilhões da Vast Data em captação a uma valuation de $30 bilhões e grandes investimentos na OpenAI, Anthropic e xAI.
GateNews4h atrás
OpenClaw, Hermes e SillyTavern Confirmados como Suporte no GLM Coding Plan
O gerente de produto da Zhipu AI, Li, anuncia o OpenClaw, o Hermes e o SillyTavern como projetos compatíveis no GLM Coding Plan; outras ferramentas serão avaliadas caso a caso. Não compartilhe credenciais nem use assinaturas como acesso à API; entre em contato com o suporte para o erro 1313.
O gerente de produto da Zhipu AI, Li, anunciou que o OpenClaw, o Hermes e o SillyTavern são oficialmente compatíveis no GLM Coding Plan, com outras ferramentas avaliadas caso a caso. A nota alerta contra o compartilhamento de credenciais ou o uso de assinaturas como acesso à API e orienta os usuários com o erro 1313 a entrarem em contato com o suporte.
GateNews7h atrás