De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa dos tokens nos seus modelos da série M2 através de uma varredura completa do vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda notável de desempenho, com os tokens japoneses a serem os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação resulta de tokens de baixa frequência serem empurrados para direções incorretas no espaço vetorial durante o pós-treino, onde tokens de alta frequência, como os marcadores de tool_call, atualizam continuamente os parâmetros em torno.
A MiniMax implementou uma correção com dados sintéticos usando tarefas simples de repetição de tokens para estabilizar todo o vocabulário. Os resultados foram imediatos: os caracteres russos misturados nas respostas japonesas desceram de 47% para 1%, e a estabilidade dos vetores (semelhança cosseno) melhorou de um mínimo de 0,329 para acima de 0,97 em todos os tokens.
Related News
Falha nos gráficos na aplicação da Revolut leva a uma “queda” momentânea no preço do Bitcoin, gerando confusão entre os utilizadores
A taxa de queima da Shiba Inu dispara 812% à medida que a atividade se recupera
A taxa de queima do Shiba Inu dispara 812% à medida que a atividade recupera