Mensagem de notícias da Gate, 24 de Abril — A DeepSeek lançou hoje o modelo V4, validando previsões arquitectónicas anteriores feitas através da análise da biblioteca de kernels TileKernels lançada ontem (23 de Abril). De acordo com o acompanhamento da Beating, três componentes centrais foram confirmados: mHC (Manifold-Constrained Hyper-Connections) a substituir o HyperConnection original da ByteDance, arquitectura MoE com encaminhamento de especialistas Top-k, e armazenamento de pesos de precisão mista FP4+FP8. O módulo de memória condicional do Engram previsto não apareceu no modelo.
O modelo revelou novos componentes não abrangidos pela TileKernels: mecanismos de atenção híbrida (CSA + HCA) impulsionam as melhorias de eficiência de longo contexto do V4, reduzindo os FLOPs de inferência para apenas 27% do nível do V3.2 em janelas de contexto de 1M e a cache KV para 10%. O treino agora usa o optimizador Muon.
A verificação demonstra como implementações de kernels ao nível da produção podem revelar a arquitectura subjacente do modelo antes de as especificações oficiais serem publicadas.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas
Mensagem do Gate News, 24 de Abril — A responsável da equipa de modelos de linguagem da Xiaomi, Luo Fuli, revelou numa entrevista aprofundada que o modelo MiMo-V2-Pro tem, no total, 1 bilião de parâmetros e que foram necessários milhares de GPUs para o treino. Ela referiu que a escala de 1T representa o limiar mínimo para obter
GateNewsNeste momento
DeepSeek V4 Obtém Pontuação Perfeita no Putnam-2025, Empata com a Axiom em Raciocínio Matemático Formal
Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.
No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no
GateNews8m atrás
Que IA é a mais marcante para afirmar estatuto e posição? Um estudo revela que os utilizadores do Claude ganham muito mais do que os seus pares, e a Meta AI fica no fundo
A investigação da Epoch AI indica que os utilizadores da Claude são maioritariamente de estratos de rendimentos elevados: 80% auferem mais de 100.000 dólares por ano; a distribuição de rendimentos da Meta AI é a mais ampla, com 36,5% acima dos 100.000 dólares, e a fatia de rendimentos mais baixos é a mais elevada; com a Claude, o preço subiu e existe faturação por níveis, pelo que os custos poderão aumentar; a Meta é mais fácil de começar. Qual das próximas IAs poderá tornar-se numa etiqueta de identidade implícita.
ChainNewsAbmedia13m atrás
V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5
Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo
GateNews28m atrás
O Reino Unido avalia a Anthropic de IA para reforçar a cibersegurança bancária
O Reino Unido está a explorar um grande passo na cibersegurança financeira, trabalhando com a empresa de IA Anthropic. As primeiras conversas sugerem que o governo poderá implementar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Esta medida tem como objetivo melhorar as defesas à medida que as ameaças cibernéticas
CryptometerIo32m atrás
O Gabinete de Propriedade Intelectual da China inclui IA, semicondutores e interfaces cérebro-computador no programa de protecção acelerada
Mensagem de Gate News, 24 de Abril — A Administração Estatal Chinesa de Propriedade Intelectual anunciou a 24 de Abril que irá estabelecer uma protecção abrangente da propriedade intelectual para tecnologias emergentes através de reformas institucionais, serviços reforçados e aplicações alargadas. A administração wi
GateNews39m atrás