据 Beating 称,小米在跟随与 DeepSeek 一致的近期降价之后,披露了其 MiMo-V2.5 API 的核心优化技术。该公司高负载推理引擎通过混合注意力架构以及分层 KV cache 优化来维持盈利能力。
小米的推理框架通过为滑动窗口注意力(SWA)实施分层优化,将缓存成本降低了 80%,并将令牌容量提升了 5 倍。70 层的 MiMo-V2.5-Pro 模型在全局注意力(GA)层与 SWA 层之间采用 1:7 的稀疏比例,执行的预填计算相当于传统 10 层全局 GQA 模型,从而显著降低推理成本。