Xiaomi сокращает расходы на MiMo API на 80% за счёт иерархического кэша — эквивалент модели 10-уровневого GQA
По данным Beating, Xiaomi раскрыла ключевые техники оптимизации для своей MiMo-V2.5 API после недавних сокращений цен, синхронизированных с DeepSeek. Высоконагрузочный инференс-движок компании сохраняет прибыльность за счёт гибридной архитектуры attention и оптимизации иерархического KV cache. Инференс-фреймворк Xiaomi добился 80% снижения затрат на кэш, внедрив иерархическую оптимизацию для sliding window attention (SWA), увеличив токеновую ёмкость в 5 раз. Модель MiMo-V2.5-Pro с 70 слоями, исп
DEEPSEEK0,56%
GateNews·19м назад
