По данным Beating, Xiaomi раскрыла ключевые техники оптимизации для своей MiMo-V2.5 API после недавних сокращений цен, синхронизированных с DeepSeek. Высоконагрузочный инференс-движок компании сохраняет прибыльность за счёт гибридной архитектуры attention и оптимизации иерархического KV cache.
Инференс-фреймворк Xiaomi добился 80% снижения затрат на кэш, внедрив иерархическую оптимизацию для sliding window attention (SWA), увеличив токеновую ёмкость в 5 раз. Модель MiMo-V2.5-Pro с 70 слоями, использующая соотношение 1:7 между слоями global attention (GA) и SWA, выполняет prefill-вычисления, эквивалентные традиционной модели global GQA на 10 слоях, существенно снижая расходы на инференс.