A NVIDIA lança o Nemotron 3 Nano Omni open source multimodal

De acordo com o anúncio no blog oficial da NVIDIA de 28 de abril (autor Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal aberto que integra capacidades de visão, áudio e linguagem em um único modelo, com o objetivo de oferecer à plataforma de sistemas de agentes uma “camada de percepção” com menor latência e menor custo.

Especificações principais: MoE 30B-A3B, contexto de 256K, 9 vezes mais throughput, e chegou ao topo em 6 rankings

Arquitetura-chave:

30B-A3B hybrid mixture-of-experts (parâmetros totais 30B, ativação 3B)

Integra Conv3D e EVS encoding

Comprimento de contexto 256K

Entrada: texto, imagem, áudio, vídeo, documentos, gráficos, telas de GUI

Saída: texto

Sinais de desempenho: 9 vezes mais throughput em igual nível de interatividade do que outros modelos omni abertos; em três categorias de benchmarks — inteligência em documentos, compreensão de vídeo e compreensão de áudio — conquistou o 1º lugar em um total de 6 rankings (o anúncio da NVIDIA não divulgou pontuações específicas, orientando os leitores a irem ao blog de desenvolvedores para ver os detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” dentro de sistemas de agentes, podendo ter divisão de trabalho com modelos da mesma família como Nemotron 3 Super (execução em alta frequência) e Nemotron 3 Ultra (planejamento complexo), além de também permitir interoperabilidade com modelos em nuvem de terceiros. Três cenários típicos de aplicação de agentes:

Agente de uso de computador (Computer Use Agent): raciocínio visual com resolução nativa de 1920×1080

Inteligência em documentos: inferência a partir de entradas multimodais, cruzando imagens, tabelas, capturas de tela e mídia mista

Compreensão de áudio/vídeo: integrar fala, cenas e registros em uma única cadeia de inferência

Adoção por lineup: entra a Foxconn, Palantir; CEO da H Company faz declaração nominal

No anúncio, a NVIDIA separa claramente “adoção em produção” de “em avaliação”:

Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.

O CEO da H Company, Gautier Cloix, fez uma declaração nominal no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para construir agentes úteis, você não pode esperar segundos para o modelo interpretar uma tela. Ao construir sobre o Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em full HD — algo que antes não era viável.”

Estratégia de código aberto e implantação: pesos / datasets / métodos de treinamento totalmente abertos

No lançamento, a NVIDIA disponibiliza também:

Pesos do modelo

Conjuntos de dados de treinamento

Técnicas/métodos de treinamento

A esteira de implantação abrange três camadas:

Estações de trabalho locais: NVIDIA DGX Spark, DGX Station

Microserviços NIM: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, além de fornecer via mais de 25 NVIDIA Cloud Partners, plataformas de inferência e provedores de serviço em nuvem

Ferramentas personalizadas utilizam NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou no ano passado mais de 50 milhões de downloads no Hugging Face; desta vez, o Omni estende as capacidades dessa família para os domínios multimodal e agentic.

Este artigo sobre o lançamento do Nemotron 3 Nano Omni como código aberto multimodal da NVIDIA apareceu pela primeira vez em 鏈新聞 ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários