Согласно объявлению NVIDIA в официальном блоге от 28 апреля (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — открытое мультимодальное модельное решение, объединяющее визуальные, голосовые и языковые возможности в одной модели; цель — предоставить для систем AI agent более низкую задержку и меньшие затраты на «сенсорный слой».
Ключевые спецификации: 30B-A3B MoE、256K context、в 9 раз выше пропускная способность、заняло 6 первых мест в рейтингах
Ключевая архитектура:
30B-A3B hybrid mixture-of-experts(общее число параметров 30B、активируемые 3B)
интеграция Conv3D и EVS кодирования
длина 256K context
Входные данные: текст、изображения、аудио、видео、документы、диаграммы、GUI-экраны
Выходные данные: текст
Сигналы по производительности: в сравнении с другими открытыми omni-моделями при равной интерактивности — в 9 раз выше пропускная способность; в трех категориях — интеллектуальная работа с документами、понимание видео、понимание аудио — всего 6 базовых рейтинговых тестов заняли первое место (в объявлении NVIDIA не приведены конкретные баллы; оно направляет читателей к разработческому блогу для просмотра подробностей).
NVIDIA позиционирует Nemotron 3 Nano Omni как «глаза и уши» в агентных системах: она может работать в разделе ролей с моделями той же линейки, такими как Nemotron 3 Super(высокочастотное выполнение)、Nemotron 3 Ultra(сложное планирование), а также может быть совместима с облачными моделями сторонних разработчиков. Три типичных сценария применения agent:
Агент для компьютерного использования(Computer Use Agent):нативное визуальное рассуждение с разрешением 1920×1080
Интеллектуальные документы:рассуждение по смешанным входам, включая диаграммы, таблицы, скриншоты и мультимедиа
Понимание аудио/видео:объединение речи, изображения и записи в единую цепочку рассуждения
Круг компаний-пользователей: Foxconn, Palantir присоединились; CEO H Company сделал именное заявление
В объявлении NVIDIA отчетливо различаются «промышленное внедрение» и «находится на оценке»:
Уже внедрено в производство: Aible、Applied Scientific Intelligence(ASI)、Eka Care、鸿海(Foxconn)、H Company、Palantir、Pyler
Находится на оценке: Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr и др.
CEO H Company Gautier Cloix в объявлении сделал именное заявление: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」 Перевод: «Чтобы создавать полезные агенты, нельзя ждать секунды, пока модель интерпретирует экран. Опираясь на Nemotron 3 Nano Omni, наши агенты могут быстро интерпретировать записи экранов в Full HD — то, что раньше было непрактично».
Стратегия open-source и развертывание: веса / датасеты / методы обучения — полностью раскрыты
При выпуске NVIDIA также публикует:
веса модели
обучающие наборы данных
обучающие технологии/методологии
Конвейер развертывания охватывает три уровня:
локальные рабочие станции: NVIDIA DGX Spark、DGX Station
NIM микросервисы: build.nvidia.com
сторонние платформы: Hugging Face、OpenRouter, а также предоставление через 25+ NVIDIA Cloud Partners, платформы для вывода и облачные сервис-провайдеры
Собственные инструменты — с использованием NVIDIA NeMo. Семейство Nemotron 3(Nano/Super/Ultra)за прошлый год накопило на Hugging Face свыше 50 000 000 загрузок; в этот раз Omni расширяет возможности этого семейства до мультимодальности и agentic-области.
Эта статья, которую NVIDIA опубликовала о том, что Nemotron 3 Nano Omni — открытое мультимодальное решение, впервые появилась на 链新闻 ABMedia。
Related News
Интел дважды повышала цены, задерживала поставки; MediaTek и Supermicro воспользовались моментом, чтобы отвоевать долю рынка CPU
Microsoft и OpenAI перезаключили соглашение: отмена эксклюзивности, удаление пунктов об AGI
Го Миньчэнь: OpenAI сотрудничает с MediaTek, Qualcomm и Luxshare Precision в разработке смартфонов, планируется начать серийное производство в 2028 году
Cerebras заключила с OpenAI соглашение на 20 млрд долларов, целевая оценка для IPO — 35 млрд
Mac Studio запускает тестирование больших моделей: ожидается M3 Ultra, кластерное решение и M5 Ultra