Na plataforma X, o estudante de doutoramento da Princeton, Zhang, revelou os pontos principais do DeepSeek V4: V4/V4-Lite possuem respetivamente 285 bilhões e 1,6 triliões de parâmetros, utilizando atenção esparsa DSA2 (DSA+NSA), head-dim512, MQA esparso e SWA, especialistas MoE384, ativando 6 de cada vez, combinados com Fused Mega-Kernel e Hyper-Connections. Treinado com o otimizador Muon, com contexto de cerca de 32 mil, fase de RL com GRPO+KL de correção, e o contexto final expandido para 1 milhão. Modalidade de texto puro; Zhang não está oficialmente ligado ao DeepSeek, e a resposta oficial não foi dada.

MeNews

2026-04-22 16:20:18

Geração de resumo em curso

ME News Notícias, 22 de abril (UTC+8), de acordo com a monitorização do Beating, o doutorando de Princeton Yifan Zhang atualizou detalhes técnicos do DeepSeek V4 na X. Ele anunciou em 19 de abril que a “V4 estará disponível na próxima semana” e listou três nomes de componentes arquiteturais, e esta noite forneceu a tabela completa de parâmetros, além de revelar pela primeira vez uma versão leve V4-Lite com 285 bilhões de parâmetros. O total do V4 é de 1,6 trilhão. O mecanismo de atenção é DSA2, combinando as duas abordagens de atenção esparsa usadas anteriormente no DeepSeek V3.2, DSA (DeepSeek Sparse Attention) e NSA (Native Sparse Attention), propostas no início deste ano, com head-dim de 512, em conjunto com Sparse MQA e SWA (atenção de janela deslizante). A camada MoE possui 384 especialistas, ativando 6 de cada vez, usando o Mega-Kernel MoE Fused. As conexões residuais continuam com Hyper-Connections. Detalhes divulgados pela primeira vez na fase de treinamento incluem: otimizador Muon (um otimizador matricial que aplica a ortogonalização de Newton-Schulz na atualização de momentum), comprimento do contexto de pré-treinamento de 32K, fase de aprendizagem por reforço usando GRPO com adição de correção de divergência KL. O comprimento do contexto final foi expandido para 1 milhão. A modalidade é texto puro. Zhang não ocupa cargo na DeepSeek, e a equipe oficial do DeepSeek não comentou sobre as informações acima. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.18M Popularidade
#
WCTCTradingChallengeShare8MUSDT
788.16K Popularidade
#
BitcoinBouncesBack
202.43K Popularidade
#
IsraelStrikesIranBTCPlunges
30.66K Popularidade
#
EthereumMemeSeasonReturns
1.99M Popularidade

Fixar

Yifan Zhang revela as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 ativadores especializados para 6

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Fixar