A NVIDIA lançou o Nemotron 3 Nano Omni, uma solução de multimodalidade de código aberto

De acordo com o anúncio no blogue oficial da NVIDIA de 28 de abril (autor Kari Briski), a NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal open source que integra capacidades de visão, voz e linguagem num único modelo, com o objetivo de fornecer aos sistemas de AI agents uma camada de perceção com menor latência e custos mais baixos.

Especificações principais: 30B-A3B MoE, contexto 256K, 9 vezes mais throughput, 1.º lugar em 6 rankings

Arquitetura-chave:

30B-A3B hybrid mixture-of-experts (parâmetros totais 30B, ativados 3B)

Integração de Conv3D e EVS encoding

Comprimento de contexto 256K

Entrada: texto, imagens, áudio, vídeo, ficheiros, diagramas, ecrãs GUI

Saída: texto

Sinais de desempenho: 9 vezes mais throughput em interações equivalentes do que outros modelos open source omni; e 1.º lugar em 6 rankings de três categorias principais — inteligência de documentos, compreensão de vídeo e compreensão de áudio (o anúncio da NVIDIA não indica pontuações específicas, orientando os leitores para o blogue de developers para ver os detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” em sistemas de agent, podendo dividir funções com outros modelos da mesma família, como o Nemotron 3 Super (execução de alta frequência) e o Nemotron 3 Ultra (planeamento complexo), além de poder interoperar com modelos em nuvem de terceiros. Três cenários típicos de aplicação de agent:

Agente de utilização do computador (Computer Use Agent): raciocínio visual nativo com resolução 1920×1080

Inteligência de documentos: inferência a partir de entradas multimodais, incluindo mapas, tabelas, screenshots e media mistos

Compreensão de áudio/vídeo: integrar fala, imagens e gravações num único encadeamento de inferência

Conjunto de entidades adotantes: entra a Foxconn; Palantir também entra; o CEO da H Company faz uma declaração nominal

No anúncio da NVIDIA, é feita uma distinção clara entre “adoção em produção” e “em avaliação”:

Adoção em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, entre outras

O CEO da H Company, Gautier Cloix, faz uma declaração nominal no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para criar agents úteis, não pode esperar segundos para que o modelo interprete um ecrã. Ao construir em cima do Nemotron 3 Nano Omni, os nossos agents conseguem interpretar rapidamente gravações de ecrã em Full HD — algo que antes não era praticável.”

Estratégia open source e deployment: pesos / datasets / métodos de treino totalmente divulgados

No lançamento, a NVIDIA publica simultaneamente:

Pesos do modelo

Conjuntos de dados de treino

Técnicas/métodos de treino

O pipeline de deployment abrange três camadas:

Workstations locais: NVIDIA DGX Spark, DGX Station

NIM micro-serviços: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, e através de mais de 25 NVIDIA Cloud Partners, incluindo plataformas de inferência e fornecedores de serviços em nuvem

As ferramentas de customização utilizam a NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou mais de 50 milhões de downloads no Hugging Face ao longo do último ano; desta vez, o Omni estende as capacidades dessa família para os domínios multimodal e agentic.

Este artigo da NVIDIA sobre o open source do Nemotron 3 Nano Omni apareceu pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário