Ryan Lee(MiniMaxの開発者向け広報責任者)によると、同社はMITライセンスのもとで、NVIDIA Blackwell(SM100)GPU向けの高性能アテンションライブラリ「MiniMax Sparse Attention(MSA)」をオープンソース化したとのことです。Leeは、M3モデルの重みが6月13日(金曜日)にリリースされると発表しました。
MiniMax-M3の「100万トークン」コンテキスト推論に適用すると、MSAは同等の設定においてDense GQAと比べてアテンション計算を28.4倍削減します。H800 GPUでは、このライブラリによりプリフィル速度が14.2倍向上し、デコードも7.6倍加速されました。