根據 Beating,Nvidia 於 6 月 4 日發布其旗艦級大型語言模型 Nemotron 3 Ultra,總參數量達 5,500 億(550 billion),其中活躍參數為 550 億(55 billion)。該模型在 Artificial Analysis 的智慧指數中得分 48,使其成為表現最強的開源美國模型,僅次於 Kimi K2.6 的 54 分。
該模型採用混合 Mamba-Transformer MoE 架構,會在 Mamba-2 狀態空間層與 Transformer 注意力層之間交替,支援 100 萬 token 的上下文視窗,同時避免 KV cache 出現二次方成長。與規模相近的密集模型相比,混合架構在代理任務上能達到 5 倍更高的吞吐量,並使推論成本降低 30%。Nemotron 3 Ultra 可在 Hugging Face、NVIDIA NIM 與 OpenRouter 上使用。