Theo Beating, Nvidia đã phát hành mô hình ngôn ngữ lớn (LLM) chủ lực Nemotron 3 Ultra vào ngày 4 tháng 6, với tổng cộng 550 tỷ tham số và 55 tỷ tham số hoạt động. Mô hình đạt 48 điểm trên chỉ số trí tuệ của Artificial Analysis, trở thành mô hình nguồn mở của Mỹ hoạt động mạnh nhất, xếp sau Kimi K2.6 với 54 điểm.
Mô hình sử dụng kiến trúc lai Mamba-Transformer MoE, xen kẽ các lớp Mamba-2 state space với các lớp attention kiểu Transformer, hỗ trợ cửa sổ ngữ cảnh 1 triệu token trong khi tránh sự tăng trưởng theo bậc hai của KV cache. So với các mô hình dày đặc cùng quy mô, kiến trúc lai giúp tăng thông lượng gấp 5 lần và giảm 30% chi phí suy luận cho các tác vụ của agent. Nemotron 3 Ultra có sẵn trên Hugging Face, NVIDIA NIM và OpenRouter.