根據 Ryan Lee(MiniMax 的開發者關係負責人)的說法,該公司已在 MIT 授權條款下開源 MiniMax Sparse Attention(MSA),這是一個用於 NVIDIA Blackwell(SM100)GPU 的高效能注意力(attention)程式庫。Lee 表示,M3 模型權重將在 6 月 13 日(週五)推出。
在應用於 MiniMax-M3 的百萬代幣(million-token)上下文推論時,與在等效設定下的 Dense GQA 相比,MSA 可將注意力運算降低 28.4 倍。在 H800 GPU 上,該程式庫達成 14.2 倍的預填(pre-fill)速度提升,以及 7.6 倍的解碼(decoding)加速。