Theo thông báo ngày 28 tháng 4 trên blog chính thức của NVIDIA (tác giả Kari Briski), NVIDIA đã công bố Nemotron 3 Nano Omni — một mô hình đa phương thức mã nguồn mở, tích hợp năng lực về thị giác, giọng nói và ngôn ngữ vào một mô hình duy nhất, nhằm cung cấp cho hệ thống AI agent một lớp “cảm nhận” độ trễ thấp và chi phí thấp hơn.
Thông số cốt lõi: 30B-A3B MoE, context 256K, thông lượng gấp 9 lần, đứng đầu 6 bảng xếp hạng
Kiến trúc then chốt:
30B-A3B hybrid mixture-of-experts (tổng tham số 30B, kích hoạt 3B)
Tích hợp Conv3D và EVS encoding
Độ dài context 256K
Đầu vào: văn bản, hình ảnh, âm thanh, video, tài liệu, biểu đồ, màn hình GUI
Đầu ra: văn bản
Tín hiệu hiệu năng: đạt thông lượng gấp 9 lần so với các mô hình omni mã nguồn mở khác trong điều kiện tương đương về mức độ tương tác; vươn lên vị trí số 1 ở tổng cộng 6 bảng xếp hạng thuộc 3 nhóm hạng mục lớn gồm trí tuệ tài liệu, hiểu video và hiểu âm thanh (thông báo của NVIDIA không nêu cụ thể điểm số, nhằm hướng người đọc tới blog dành cho nhà phát triển để xem chi tiết).
NVIDIA định vị Nemotron 3 Nano Omni như “đôi mắt và đôi tai” trong hệ thống agent, có thể phân công cùng họ mô hình với Nemotron 3 Super (thực thi tần suất cao), Nemotron 3 Ultra (lập kế hoạch phức tạp) và cũng có thể tương tác với các mô hình đám mây bên thứ ba. Ba tình huống ứng dụng agent điển hình:
Tác nhân thao tác máy tính (Computer Use Agent): suy luận thị giác ở độ phân giải gốc 1920×1080
Trí tuệ tài liệu: suy luận đầu vào đa dạng gồm biểu đồ, bảng, ảnh chụp màn hình và phương tiện trộn
Hiểu âm thanh/video: tích hợp lời nói, hình ảnh và nội dung ghi chép thành một chuỗi suy luận đơn
Đội ngũ áp dụng: Foxconn/鸿海 (Foxconn) tham gia, Palantir gia nhập, H Company CEO nêu tên bày tỏ lập trường
Trong thông báo, NVIDIA phân biệt rõ giữa “đã triển khai sản xuất” và “đang đánh giá”:
Đã sản xuất: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
Đang đánh giá: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr…
CEO H Company Gautier Cloix trong thông báo nêu tên bày tỏ: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Dịch: “Để xây dựng các agent hữu ích, bạn không thể chờ vài giây để mô hình giải đọc màn hình. Dựa trên Nemotron 3 Nano Omni, các agent của chúng tôi có thể nhanh chóng giải đọc các bản ghi màn hình Full HD — điều trước đây không thực tế để làm.”
Chiến lược mã nguồn mở và triển khai: weights / datasets / phương pháp huấn luyện đều công khai
Tại thời điểm phát hành, NVIDIA công bố đồng thời:
Trọng số mô hình (model weights)
Bộ dữ liệu huấn luyện
Kỹ thuật/phương pháp huấn luyện
Chuỗi triển khai bao gồm ba lớp:
Trạm làm việc tại chỗ: NVIDIA DGX Spark, DGX Station
Dịch vụ vi mô NIM: build.nvidia.com
Nền tảng bên thứ ba: Hugging Face, OpenRouter, và thông qua hơn 25 NVIDIA Cloud Partners, các nền tảng suy luận và nhà cung cấp dịch vụ đám mây để cung cấp
Công cụ tùy biến sử dụng NVIDIA NeMo. Họ Nemotron 3 (Nano/Super/Ultra) trong năm qua đã tích lũy hơn 50 triệu lượt tải về trên Hugging Face; lần Omni này mở rộng năng lực của họ mô hình đó sang lĩnh vực đa phương thức và agentic.
Bài viết NVIDIA phát hành Nemotron 3 Nano Omni mã nguồn mở đa phương thức xuất hiện sớm nhất ở 鏈新聞 ABMedia.
Related News
Claude/GPT có quá thích nịnh bợ? Một đoạn gợi ý trong Claude.md khiến AI đưa ra câu trả lời cứng rắn và chính xác
OpenAI ra mắt ChatGPT Futures: 26 sinh viên khóa đầu tiên nhận học bổng 10.000 USD, trải dài trên hơn 20 trường đại học
Nvidia và MediaTek bắt tay tạo trợ lý AI bản địa cho xe tương lai
Chrome âm thầm gỡ bỏ rồi cài đặt lại 4GB AI, nhà nghiên cứu nói vi phạm luật bảo mật của Liên minh châu Âu
OpenAI công bố giao thức mạng siêu máy tính MRC! Hợp tác với Nvidia, AMD, Microsoft để xây dựng hạ tầng Stargate