Menurut Beating, Xiaomi mengungkap teknik optimasi inti untuk API MiMo-V2.5 setelah pemotongan harga terbaru yang selaras dengan DeepSeek. Mesin inferensi berbeban tinggi perusahaan tetap menguntungkan berkat arsitektur perhatian hibrida dan optimasi hierarkis pada cache KV.
Kerangka inferensi Xiaomi mencapai pengurangan biaya cache sebesar 80% dengan menerapkan optimasi hierarkis untuk sliding window attention (SWA), sekaligus meningkatkan kapasitas token hingga 5x. Model MiMo-V2.5-Pro dengan 70 lapisan, menggunakan rasio sparse 1:7 antara lapisan global attention (GA) dan SWA, menjalankan komputasi prefill yang setara dengan model global GQA tradisional 10 lapisan, sehingga menurunkan biaya inferensi secara signifikan.