Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas

Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar desempenho próximo ao nível Claude Opus 4.6 e garantir uma credencial competitiva para a próxima fase de agentes de IA.

Tecnicamente, a versão Pro utiliza um mecanismo de atenção esparsa extrema, com uma proporção de 7:1 entre atenção global e atenção por janela deslizante, controlando os custos de inferência para processamento de contexto longo. O modelo também mantém a arquitetura MTP (Multi-Token Prediction) para aproveitar o poder computacional excedente e permitir inferência mais rápida.

Do lado da gestão, a equipe MiMo de 100 pessoas tem apenas 30-40 pessoas diretamente envolvidas nas iterações centrais. A equipe opera sem hierarquias formais ou divisões explícitas de subgrupos, e sem prazos definidos de entrega. Ao se deparar com problemas numéricos instáveis, como picos na perda de treinamento, a equipe prioriza interromper o treinamento para investigação, mesmo que isso signifique parar as operações por uma ou duas semanas e incorrer em custos de computação que chegam a milhões de dólares.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários