NVIDIA представила Nemotron 3 Nano Omni — открытый мультимодальный проект

Согласно объявлению NVIDIA в официальном блоге от 28 апреля (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — открытый многомодальный модель, объединяющую визуальные, голосовые и языковые возможности в одном моделe. Цель — обеспечить для систем AI agent более низкую задержку и более низкую стоимость «уровня восприятия».

Ключевые характеристики: 30B-A3B MoE, контекст 256K, 9-кратная пропускная способность, заняла 6 первых мест в рейтингах

Ключевая архитектура:

30B-A3B hybrid mixture-of-experts (общее число параметров 30B, активируемые 3B)

Интеграция Conv3D и EVS кодирования

Длина контекста 256K

Вход: текст, изображение, аудио, видео, документы, диаграммы, GUI-экраны

Выход: текст

Сигналы по производительности: по сравнению с другими открытыми omni-моделями при сопоставимой интерактивности — 9-кратная пропускная способность; во всех трех категориях бенчмарков (smart documents, video understanding, audio understanding) суммарно в шести бенчмарках заняла первое место (в объявлении NVIDIA не приведены конкретные баллы; читателей направляют на разработческий блог, чтобы ознакомиться с детальными данными).

NVIDIA позиционирует Nemotron 3 Nano Omni как «глаза и уши» для агентных систем: она работает в связке с моделями того же семейства — Nemotron 3 Super (высокочастотное выполнение), Nemotron 3 Ultra (сложное планирование) — а также может быть совместима с облачными моделями сторонних разработчиков. Три типичных сценария применения agent:

Агент для управления компьютером (Computer Use Agent): нативное визуальное рассуждение с разрешением 1920×1080

Smart documents: рассуждение по входным данным из разных типов — графики, таблицы, скриншоты и смешанные медиа

Понимание аудио/видео: объединение речи, изображения и записей в единую цепочку вывода

Состав внедряющих: в списке — Foxconn (Hon Hai), Palantir, а также именное заявление CEO H Company

В объявлении NVIDIA четко различает «производственное внедрение» и «на стадии оценки»:

Уже внедрено в производство: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler

На стадии оценки: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr и т.д.

CEO H Company Gautier Cloix в объявлении сделал именное заявление: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.» Перевод: «Чтобы создавать полезные agent’ы, нельзя ждать секунды, пока модель интерпретирует экран. Опираясь на Nemotron 3 Nano Omni, наши агенты могут быстро интерпретировать записи полноэкранного HD — то, что раньше было непрактично».

Стратегия открытого кода и развертывание: веса / датасеты / методы обучения — полностью раскрыты

Во время релиза NVIDIA также опубликовала:

веса модели

обучающий датасет

технологии / методологию обучения

Конвейер развертывания охватывает три слоя:

Локальная рабочая станция: NVIDIA DGX Spark, DGX Station

NIM микросервисы: build.nvidia.com

Платформы третьих сторон: Hugging Face, OpenRouter, а также через 25+ NVIDIA Cloud Partners, провайдеров inference-платформ и облачных сервисов

Индивидуальные инструменты — с помощью NVIDIA NeMo. Семейство Nemotron 3 (Nano/Super/Ultra) за последний год на Hugging Face накопило более 50 000 000 загрузок; в этот раз Omni расширяет возможности этого семейства на многомодальность и агентную область.

Эта статья NVIDIA представила Nemotron 3 Nano Omni с открытым исходным кодом: самый ранний материал появился в Linked News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев