Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar desempenho próximo ao nível Claude Opus 4.6 e garantir uma credencial competitiva para a próxima fase de agentes de IA.
Tecnicamente, a versão Pro utiliza um mecanismo de atenção esparsa extrema, com uma proporção de 7:1 entre atenção global e atenção por janela deslizante, controlando os custos de inferência para processamento de contexto longo. O modelo também mantém a arquitetura MTP (Multi-Token Prediction) para aproveitar o poder computacional excedente e permitir inferência mais rápida.
Do lado da gestão, a equipe MiMo de 100 pessoas tem apenas 30-40 pessoas diretamente envolvidas nas iterações centrais. A equipe opera sem hierarquias formais ou divisões explícitas de subgrupos, e sem prazos definidos de entrega. Ao se deparar com problemas numéricos instáveis, como picos na perda de treinamento, a equipe prioriza interromper o treinamento para investigação, mesmo que isso signifique parar as operações por uma ou duas semanas e incorrer em custos de computação que chegam a milhões de dólares.