根據 NVIDIA 官方部落格 4 月 28 日公告(作者 Kari Briski),NVIDIA 發表 Nemotron 3 Nano Omni — 開源多模態模型,把視覺、語音與語言能力整合進單一模型,目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。
核心規格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位
關鍵架構:
30B-A3B hybrid mixture-of-experts(總參數 30B、活化 3B)
整合 Conv3D 與 EVS 編碼
256K context 長度
輸入:文字、影像、音訊、影片、文件、圖表、GUI 螢幕
輸出:文字
性能訊號:較其他開源 omni 模型在同等互動性下達 9 倍吞吐量;於文件智慧、影片理解、音訊理解三大類共 6 個基準排行榜取得首位(NVIDIA 公告未列出具體分數,引導讀者前往開發者部落格查看詳細資料)。
NVIDIA 把 Nemotron 3 Nano Omni 定位為 agent 系統中的「眼睛與耳朵」,可與 Nemotron 3 Super(高頻執行)、Nemotron 3 Ultra(複雜規劃)等同家族模型分工,亦可與第三方雲端模型互通。三個典型 agent 應用場景:
電腦操作代理(Computer Use Agent):原生 1920×1080 解析度視覺推理
文件智慧:跨圖、表、截圖與混合媒體輸入推理
音訊/影片理解:把講話、畫面、紀錄整合為單一推理串
採用方陣容:鴻海、Palantir 入列、H Company CEO 具名表態
NVIDIA 公告中明確區分「生產採用」與「正在評估」:
已生產採用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler
正在評估:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等
H Company 執行長 Gautier Cloix 在公告中具名表態:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻譯:「打造實用代理時,你不能等模型秒級解讀螢幕。建立在 Nemotron 3 Nano Omni 之上,我們的代理可快速解讀完整 HD 螢幕錄影 — 這在之前並不實際可行。」
開源策略與布署:weights / datasets / 訓練方法全公開
NVIDIA 在發布同時公開:
模型權重
訓練資料集
訓練技術/方法論
布署管道涵蓋三層:
本地工作站:NVIDIA DGX Spark、DGX Station
NIM 微服務:build.nvidia.com
第三方平台:Hugging Face、OpenRouter,並透過 25 個以上 NVIDIA Cloud Partners、推理平台與雲端服務商提供
客製化工具則使用 NVIDIA NeMo。Nemotron 3 家族(Nano/Super/Ultra)過去一年在 Hugging Face 累積下載超過 5,000 萬次,本次 Omni 將該家族能力延伸至多模態與 agentic 領域。
這篇文章 NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
PayPal 前總裁 David Marcus 推出由 AI 代理驅動的比特幣錢包
Gate 新聞訊息,4月29日——PayPal 前總裁兼 Lightspark 執行長 David Marcus 宣布推出一款新的比特幣錢包,讓 AI 代理能夠購買 BTC 並執行資金轉帳。
該錢包整合了人工智慧能力,使自主代理能夠代表使用者管理比特幣交易,邁出朝向由 AI 驅動的加密貨幣資產管理的一步。
GateNews3分鐘前
NVIDIA 推出 Nemotron 3 Nano Omni:面向企業 AI 代理的多模態開源模型
Gate 新聞訊息,4 月 28 日 — NVIDIA 宣布推出 Nemotron 3 Nano Omni,這是一款開源的多模態推理模型,旨在為企業級 AI 代理提供統一的基礎。該模型結合視覺、音頻與語言能力,使 AI 系統的效率提升最高可達 9 倍。
GateNews1小時前
Red Hat 工程師發布 Tank OS,用於安全部署 OpenClaw AI 代理
Gate News 訊息,4 月 28 日——Red Hat 首席軟體工程師 Sally O'Malley 已發布 Tank OS,這是一款開源工具,會將 OpenClaw(用於部署 AI 代理的軟體平台)打包成安全、可啟動的系統映像。每個 OpenClaw 實例都會使用 Podman (a Red H…在隔離容器中執行;該容器工具可在不具備管理員權限的情況下運作,從而避免任何實例存取主機機器或其他代理。API 金鑰會依每個實例分別儲存,確保憑證隔離。
GateNews2小時前
TON Tech 推出可自主執行鏈上交易的 AI 代理
Gate 新聞訊息,4 月 28 日 — TON Tech(負責 Telegram 首選區塊鏈 TON 的研發團隊)已推出由 AI 驅動的代理,能夠自主執行關鍵鏈上交易。使用者可為某個代理提供專用錢包的資金,之後該代理即可進行轉帳、代幣交換、DeFi 活動,包括在設定預算內進行自動交易、質押,以及基本的投資組合管理。
此次推出是在一家大型加密貨幣交易所導入「代理式交易」之後:像 Claude 與 ChatGPT 這樣的 AI 模型可與交易帳戶連接,自主監控市場並執行交易。這項研發反映了「代理式 AI」在加密領域內外逐漸升溫的更大趨勢:使用者愈來愈常讓 AI 機器人存取數位服務並執行交易。TON Tech 負責人 Andrew Grekov 表示:「Agentic Wallets 讓 AI 代理從助理變成行動者。Telegram 上的代理不僅能夠進行對話,還能代表使用者進行交易——代為付款並與鏈上服務互動,而無需碰觸他們的金鑰。」
自 2024 年下半年以來,TON 區塊鏈上的活動明顯下滑;在活躍地址曾短暫超過 100 萬用戶之後,目前的活躍用戶數已跌至 10 萬以下。與此同時,Telegram 總創辦人兼執行長 Pavel Durov 先前在本月宣布,TON 已完成升級,以實現低於 1 秒的交易最終性。
GateNews9小時前
B.AI 與 CROSS 攜手合作 探索 Web3 遊戲基礎設施中的 AI 代理
Gate 新聞訊息,4 月 28 日——B.AI,一個面向 AI 代理的下一代數位金融基礎設施平台,昨日 ( 4 月 27 日) 宣布與 CROSS,一家全棧 Web3 遊戲基礎設施供應商,達成策略夥伴關係。此次合作旨在探索 AI 代理如何自動化
GateNews10小時前
Messari 報告分析 AI 交易架構的開發
Gate 新聞訊息,4 月 28 日——Messari 最新的 Pulse 報告,對領先的 CEX 之 AI 交易系統進行了深入分析,揭示了一套四層 AI 產品架構,包含市場分析、自主執行、開發者整合以及策略交互等組件。\n\n策略交互組件在上線後 11 天內吸引了超過 460,000 名用戶,產生了超過 260 萬次回覆。市場分析組件在早期邀請測試階段註冊了超過 450,000 名用戶,並累計 25,000+ 名候補申請者。Messari 強調,開發者整合中心支援完整的整合生態系統——MCP Server、REST/WebSocket API、Skills 與 CLI。該中心已整合五個分析型 [AI Skills]https://www.gate.com/zh/skills-hub 以及 15+ 個涵蓋宏觀、技術面、情緒與情報分析的資料工具。\n\n執行層透過子帳戶隔離、沙盒模擬以及資金上限來實現風險控管。目前它已整合 Telegram,並將擴展至 Discord 與應用平台。
GateNews14小時前