Mensagem de notícias do Gate, 24 de abril — A DeepSeek lançou hoje o cartão do modelo V4, validando as previsões arquiteturais anteriores feitas por meio da análise da biblioteca de kernels TileKernels lançada ontem (23 de abril). De acordo com o monitoramento da Beating, três componentes principais foram confirmados: mHC (Manifold-Constrained Hyper-Connections) substituindo o HyperConnection original da ByteDance, arquitetura MoE com roteamento de especialistas Top-k, e armazenamento de pesos de precisão mista FP4+FP8. O módulo de memória condicional Engram previsto não apareceu no cartão do modelo.
O cartão do modelo revelou novos componentes não cobertos pelo TileKernels: mecanismos híbridos de atenção (CSA + HCA) impulsionam os ganhos de eficiência de longo contexto do V4, reduzindo as FLOPs de inferência para apenas 27% do nível do V3.2 em janelas de contexto de 1M e cache KV para 10%. O treinamento agora usa o otimizador Muon.
A verificação demonstra como implementações de kernels em nível de produção podem revelar a arquitetura subjacente do modelo antes de especificações oficiais serem publicadas.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas
Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar
GateNewsAgora mesmo
DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal
Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.
No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no
GateNews8m atrás
Qual IA mostra mais claramente seu status e posição? Pesquisa revela que a renda dos usuários do Claude é muito maior do que a de seus pares, e a Meta AI fica na parte de baixo
A pesquisa da Epoch AI mostra que os usuários do Claude são predominantemente de faixas de alta renda, com 80% tendo uma renda anual acima de US$ 100.000; a distribuição de renda do Meta AI é a mais ampla, com 36,5% acima de US$ 100.000, e a maior proporção é entre os de baixa renda; com o aumento do preço do Claude e a cobrança por níveis, os custos podem aumentar, enquanto o Meta é mais fácil para começar. Qual IA pode se tornar uma etiqueta de identidade implícita no futuro.
ChainNewsAbmedia13m atrás
V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5
Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo
GateNews28m atrás
O Reino Unido observa a Anthropic AI para fortalecer a cibersegurança bancária
O Reino Unido está explorando um grande passo em cibersegurança financeira ao trabalhar com a empresa de IA Anthropic. As primeiras discussões sugerem que o governo pode implantar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Essa medida visa aprimorar as defesas contra ameaças cibernéticas
CryptometerIo32m atrás
O Escritório de PI da China Adiciona IA, Semicondutores e Interfaces Cérebro-Computador ao Programa de Proteção com Tramitação Acelerada
Mensagem do Gate News, 24 de abril — A Administração Nacional de Propriedade Intelectual da China anunciou em 24 de abril que estabelecerá proteção abrangente de propriedade intelectual para tecnologias emergentes por meio de reformas institucionais, serviços aprimorados e aplicações ampliadas. A administração wi
GateNews39m atrás