De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa de tokens em seus modelos da série M2 por meio de uma varredura completa de vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda relevante de desempenho, com tokens japoneses sendo os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação ocorre porque tokens de baixa frequência são empurrados para direções incorretas no espaço vetorial durante o pós-treinamento, onde tokens de alta frequência, como marcadores de tool_call, atualizam continuamente os parâmetros ao redor.
A MiniMax implementou uma correção com dados sintéticos usando tarefas simples de repetição de tokens para estabilizar todo o vocabulário. Os resultados foram imediatos: caracteres russos misturados nas respostas em japonês caíram de 47% para 1% e a estabilidade do vetor (similaridade cosseno) melhorou de um mínimo de 0,329 para acima de 0,97 em todos os tokens.
Related News
Falha no gráfico do aplicativo da Revolut faz o preço do Bitcoin “cair” temporariamente e causa confusão entre usuários
A taxa de queima do Shiba Inu dispara 812% à medida que a atividade se recupera
A taxa de queima da Shiba Inu dispara 812% à medida que a atividade se recupera