A Xiaomi reduz os custos da API MiMo em 80% via cache hierárquica, equivalente a um modelo GQA com 10 camadas

De acordo com a Beating, a Xiaomi revelou técnicas de otimização de base para a sua API MiMo-V2.5 na sequência de recentes cortes de preços alinhados com a DeepSeek. O motor de inferência de elevada carga da empresa mantém a rentabilidade através de uma arquitetura híbrida de atenção e otimização hierárquica do cache KV.

A framework de inferência da Xiaomi alcançou uma redução de 80% nos custos de cache ao implementar otimização hierárquica para a atenção com janela deslizante (SWA), aumentando a capacidade de tokens em 5x. O modelo MiMo-V2.5-Pro, com 70 camadas, usando uma proporção esparsa 1:7 entre camadas de atenção global (GA) e SWA, executa cálculos de prefill equivalentes a um modelo GQA global tradicional com 10 camadas, reduzindo significativamente os custos de inferência.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário