NVIDIA lanza Nemotron 3 Nano Omni, código abierto multimodal

De acuerdo con el anuncio del 28 de abril del blog oficial de NVIDIA (autor: Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni, un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un único modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.

Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces de rendimiento, y liderar 6 rankings

Arquitectura clave:

30B-A3B hybrid mixture-of-experts (parámetros totales 30B, activados 3B)

Integración de codificación Conv3D y EVS

Longitud de contexto 256K

Entrada: texto, imágenes, audio, videos, documentos, tablas, pantallas GUI

Salida: texto

Señales de desempeño: 9 veces de rendimiento en interactividad equivalente frente a otros modelos omni de código abierto; ocupó el primer lugar en 6 rankings de referencia en tres grandes categorías: inteligencia de documentos, comprensión de video y comprensión de audio (en el anuncio de NVIDIA no se listan puntuaciones específicas, y se guía a los lectores a ir al blog de desarrolladores para ver los detalles).

NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes, y puede trabajar en conjunto con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja). También puede interoperar con modelos en la nube de terceros. Tres escenarios típicos de aplicación de agentes:

Agente de uso de computadora (Computer Use Agent): razonamiento visual nativo con resolución 1920×1080

Inteligencia de documentos: inferencia con entradas multimodales que combinan gráficos, tablas, capturas y medios mixtos

Comprensión de audio/video: integrar voz, imágenes y registros en una única cadena de inferencia

Repertorio de adopción: entra Hon Hai, Palantir, y el CEO de H Company hace una declaración con nombre propio

En el anuncio, NVIDIA distingue explícitamente entre “adopción para producción” y “en evaluación”:

Adopción para producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler

En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, entre otros

El CEO de H Company, Gautier Cloix, hace una declaración con nombre propio en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos para que un modelo interprete una pantalla. Al basarnos en Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla completas en HD, algo que antes no era práctico.”

Estrategia de código abierto y despliegue: pesos / conjuntos de datos / métodos de entrenamiento, todo publicado

Al momento de su lanzamiento, NVIDIA publica también:

Pesos del modelo

Conjuntos de datos de entrenamiento

Técnicas/métodos de entrenamiento

El despliegue abarca tres capas:

Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station

Microservicios NIM: build.nvidia.com

Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, proveedores de plataformas de inferencia y servicios en la nube

Las herramientas personalizadas se utilizan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) en el último año acumuló más de 50.000.000 de descargas en Hugging Face, y esta Omni extiende las capacidades de esa familia a los ámbitos multimodales y agentic.

Este artículo sobre que NVIDIA publica Nemotron 3 Nano Omni de código abierto y multimodal aparece por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios