MiniMax Scans 200 mil tokens, descobre uma degradação de 4,9% nos modelos da série M2

De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa dos tokens nos seus modelos da série M2 através de uma varredura completa do vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda notável de desempenho, com os tokens japoneses a serem os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação resulta de tokens de baixa frequência serem empurrados para direções incorretas no espaço vetorial durante o pós-treino, onde tokens de alta frequência, como os marcadores de tool_call, atualizam continuamente os parâmetros em torno.

A MiniMax implementou uma correção com dados sintéticos usando tarefas simples de repetição de tokens para estabilizar todo o vocabulário. Os resultados foram imediatos: os caracteres russos misturados nas respostas japonesas desceram de 47% para 1%, e a estabilidade dos vetores (semelhança cosseno) melhorou de um mínimo de 0,329 para acima de 0,97 em todos os tokens.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário