NVIDIA annonce Nemotron 3 Nano Omni open source multi-modal

Selon une annonce du blog officiel de NVIDIA datée du 28 avril (auteur : Kari Briski), NVIDIA a publié Nemotron 3 Nano Omni — un modèle multimodal open source — intégrant des capacités visuelles, vocales et linguistiques dans un seul modèle, avec pour objectif de fournir une « couche de perception » plus faible en latence et moins coûteuse pour les systèmes d’AI agent.

Spécifications clés : 30B-A3B MoE, context 256K, débit 9 fois supérieur, arrivée en tête de 6 classements

Architecture clé :

30B-A3B hybrid mixture-of-experts (30B paramètres au total, 3B activés)

Intègre le codage Conv3D et EVS

Longueur de context 256K

Entrée : texte, images, audio, vidéo, documents, graphiques, écrans GUI

Sortie : texte

Signaux de performance : 9 fois plus de débit que les autres modèles open source omni, à interaction équivalente ; première place dans les trois grandes catégories de tests de référence — compréhension de documents, compréhension de vidéos, compréhension de l’audio — soit 6 classements au total (l’annonce de NVIDIA ne donne pas les scores détaillés, invitant les lecteurs à consulter le blog des développeurs pour obtenir les informations complètes).

NVIDIA positionne Nemotron 3 Nano Omni comme les « yeux et les oreilles » d’un système d’agent, qui peut être réparti entre des modèles de la même famille tels que Nemotron 3 Super (exécution haute fréquence) et Nemotron 3 Ultra (planification complexe), et peut aussi être interopérable avec des modèles cloud de tiers. Trois scénarios typiques d’applications d’agent :

Agent d’utilisation de l’ordinateur (Computer Use Agent) : raisonnement visuel natif en résolution 1920×1080

Smart documents : raisonnement par entrées multimédias mixtes, notamment plans, tableaux, captures d’écran

Compréhension audio/vidéo : intégration de la parole, des images et des enregistrements dans une seule chaîne de raisonnement

Équipe d’adoption : Foxconn, Palantir font leur entrée, et le PDG de H Company s’est déclaré publiquement

Dans l’annonce, NVIDIA distingue clairement « adoption en production » et « en cours d’évaluation » :

Déjà en production : Aible, Applied Scientific Intelligence (ASI), Eka Care,鸿海 (Foxconn), H Company, Palantir, Pyler

En cours d’évaluation : Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

Le PDG de H Company, Gautier Cloix, s’est exprimé nommément dans l’annonce : « To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before. » Traduction : « Pour construire des agents utiles, vous ne pouvez pas attendre des secondes qu’un modèle interprète un écran. En nous appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran Full HD — quelque chose qui n’était pas possible/pratique auparavant. »

Stratégie open source et déploiement : weights / datasets / méthodes de formation entièrement publiés

Au moment du lancement, NVIDIA publie également :

Les pondérations du modèle

Les jeux de données de formation

Les techniques / méthodologies d’entraînement

Le pipeline de déploiement couvre trois couches :

Poste de travail local : NVIDIA DGX Spark, DGX Station

Microservices NIM : build.nvidia.com

Plateformes tierces : Hugging Face, OpenRouter, et via plus de 25 NVIDIA Cloud Partners, des plateformes d’inférence et des fournisseurs de services cloud

Les outils personnalisés utilisent NVIDIA NeMo. Au cours de la dernière année, la famille Nemotron 3 (Nano / Super / Ultra) a accumulé plus de 50 millions de téléchargements sur Hugging Face ; cette fois, l’Omni étend les capacités de cette famille aux domaines multimodal et agentic.

Cet article sur le lancement par NVIDIA de Nemotron 3 Nano Omni open source multimodal est apparu pour la première fois sur Chaîne d’info ABMedia。

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire