Mensagem da Gate News, 24 de abril — O relatório técnico da DeepSeek sobre a V4 revela que a V4-Flash e a V4-Pro foram pré-treinadas, respectivamente, com 32T e 33T tokens, dobrando os aproximadamente 15T tokens usados para a V3. O relatório reconhece que encontrou “desafios significativos de instabilidade” durante o treinamento, com picos de perda ocorrendo repetidamente devido a anomalias na camada (Mixture-of-Experts )MoE(; o próprio mecanismo de roteamento agrava essas anomalias, e um simples rollback não consegue resolver o problema.
A DeepSeek implementou duas soluções agora aplicadas ao treinamento real: Roteamento Antecipatório, que desacopla o cálculo do índice de roteamento das atualizações da rede backbone e dispara automaticamente apenas quando picos de perda são detectados )adicionando aproximadamente 20% de sobrecarga, e Amortecimento de SwiGLU, que suprime diretamente as anomalias ao limitar os valores de ativação a uma faixa fixa. O relatório afirma que ambas as abordagens são eficazes, mas admite que “os princípios subjacentes ainda não são compreendidos de forma suficiente”.
Susan Zhang, pesquisadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade desencadeada pelo aumento do volume de dados de treinamento em dobro “explica o atraso”. Ela descreveu as duas soluções como “band-aids”, ao mesmo tempo em que reconheceu a transparência técnica da DeepSeek.