NVIDIA 发布 Nemotron 3 Nano Omni 开源多模态

鏈新聞abmedia

根据 NVIDIA 官方部落格 4 月 28 日公告(作者 Kari Briski),NVIDIA 发布 Nemotron 3 Nano Omni——开源多模态模型,将视觉、语音与语言能力整合进单一模型,目标是为 AI agent 系统提供更低延迟、更省成本的「感知层」。

核心规格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 个排行榜首位

关键架构:

30B-A3B hybrid mixture-of-experts(总参数 30B、活化 3B)

整合 Conv3D 与 EVS 编码

256K context 长度

输入:文字、影像、音讯、影片、文件、图表、GUI 螢幕

输出:文字

性能信号:较其他开源 omni 模型在同等互动性下达 9 倍吞吐量;在文件智慧、影片理解、音讯理解三大类共 6 个基准排行榜取得首位(NVIDIA 公告未列出具体分数,因而引导读者前往开发者部落格查看详细资料)。

NVIDIA 把 Nemotron 3 Nano Omni 定位为 agent 系统中的「眼睛与耳朵」,可与 Nemotron 3 Super(高频执行)、Nemotron 3 Ultra(复杂规划)等同家族模型分工,亦可与第三方云端模型互通。三个典型 agent 应用场景:

电脑操作代理(Computer Use Agent):原生 1920×1080 分辨率视觉推理

文件智慧:跨图、表、截图与混合媒体输入推理

音讯/影片理解:把讲话、画面、纪录整合为单一推理串

采用方阵容:鸿海、Palantir 入列、H Company CEO 具名表态

NVIDIA 公告中明确区分「生产采用」与「正在评估」:

已生产采用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鸿海(Foxconn)、H Company、Palantir、Pyler

正在评估:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等

H Company 执行长 Gautier Cloix 在公告中具名表态:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻译:「打造实用代理时,你不能等模型秒级解读螢幕。建立在 Nemotron 3 Nano Omni 之上,我们的代理可快速解读完整 HD 螢幕录影——这在之前并不实用可行。」

开源策略与部署:weights / datasets / 训练方法全公开

NVIDIA 在发布同时公开:

模型权重

训练数据集

训练技术/方法论

部署管道涵盖三层:

本地工作站:NVIDIA DGX Spark、DGX Station

NIM 微服务:build.nvidia.com

第三方平台:Hugging Face、OpenRouter,并通过 25 个以上 NVIDIA Cloud Partners、推理平台与云端服务商提供

客制化工具则使用 NVIDIA NeMo。Nemotron 3 家族(Nano/Super/Ultra)过去一年在 Hugging Face 累积下载超过 5,000 万次,本次 Omni 将该家族能力延伸至多模态与 agentic 领域。

这篇文章 NVIDIA 发布 Nemotron 3 Nano Omni 开源多模态 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论