A Xiaomi reduz custos da API MiMo em 80% via cache hierárquico, equivalente a um modelo GQA de 10 camadas

De acordo com Beating, a Xiaomi revelou técnicas centrais de otimização para sua API MiMo-V2.5 após recentes cortes de preço alinhados com a DeepSeek. O mecanismo de inferência de alta carga da empresa mantém a lucratividade por meio de uma arquitetura híbrida de atenção e otimização hierárquica do cache KV.

A estrutura de inferência da Xiaomi alcançou uma redução de 80% nos custos de cache ao implementar otimizações hierárquicas para a atenção de sliding window (SWA), aumentando a capacidade de tokens em 5x. O modelo MiMo-V2.5-Pro de 70 camadas, usando uma proporção esparsa de 1:7 entre as camadas de atenção global (GA) e as camadas de SWA, realiza computações de prefill equivalentes a um modelo tradicional de 10 camadas de GQA global, reduzindo significativamente os custos de inferência.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários