Selon une annonce du blog officiel de NVIDIA datée du 28 avril (auteur : Kari Briski), NVIDIA a publié Nemotron 3 Nano Omni — un modèle multimodal open source — intégrant des capacités visuelles, vocales et linguistiques dans un seul modèle, avec pour objectif de fournir une « couche de perception » plus faible en latence et moins coûteuse pour les systèmes d’AI agent.
Spécifications clés : 30B-A3B MoE, context 256K, débit 9 fois supérieur, arrivée en tête de 6 classements
Architecture clé :
30B-A3B hybrid mixture-of-experts (30B paramètres au total, 3B activés)
Intègre le codage Conv3D et EVS
Longueur de context 256K
Entrée : texte, images, audio, vidéo, documents, graphiques, écrans GUI
Sortie : texte
Signaux de performance : 9 fois plus de débit que les autres modèles open source omni, à interaction équivalente ; première place dans les trois grandes catégories de tests de référence — compréhension de documents, compréhension de vidéos, compréhension de l’audio — soit 6 classements au total (l’annonce de NVIDIA ne donne pas les scores détaillés, invitant les lecteurs à consulter le blog des développeurs pour obtenir les informations complètes).
NVIDIA positionne Nemotron 3 Nano Omni comme les « yeux et les oreilles » d’un système d’agent, qui peut être réparti entre des modèles de la même famille tels que Nemotron 3 Super (exécution haute fréquence) et Nemotron 3 Ultra (planification complexe), et peut aussi être interopérable avec des modèles cloud de tiers. Trois scénarios typiques d’applications d’agent :
Agent d’utilisation de l’ordinateur (Computer Use Agent) : raisonnement visuel natif en résolution 1920×1080
Smart documents : raisonnement par entrées multimédias mixtes, notamment plans, tableaux, captures d’écran
Compréhension audio/vidéo : intégration de la parole, des images et des enregistrements dans une seule chaîne de raisonnement
Équipe d’adoption : Foxconn, Palantir font leur entrée, et le PDG de H Company s’est déclaré publiquement
Dans l’annonce, NVIDIA distingue clairement « adoption en production » et « en cours d’évaluation » :
Déjà en production : Aible, Applied Scientific Intelligence (ASI), Eka Care,鸿海 (Foxconn), H Company, Palantir, Pyler
En cours d’évaluation : Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.
Le PDG de H Company, Gautier Cloix, s’est exprimé nommément dans l’annonce : « To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before. » Traduction : « Pour construire des agents utiles, vous ne pouvez pas attendre des secondes qu’un modèle interprète un écran. En nous appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran Full HD — quelque chose qui n’était pas possible/pratique auparavant. »
Stratégie open source et déploiement : weights / datasets / méthodes de formation entièrement publiés
Au moment du lancement, NVIDIA publie également :
Les pondérations du modèle
Les jeux de données de formation
Les techniques / méthodologies d’entraînement
Le pipeline de déploiement couvre trois couches :
Poste de travail local : NVIDIA DGX Spark, DGX Station
Microservices NIM : build.nvidia.com
Plateformes tierces : Hugging Face, OpenRouter, et via plus de 25 NVIDIA Cloud Partners, des plateformes d’inférence et des fournisseurs de services cloud
Les outils personnalisés utilisent NVIDIA NeMo. Au cours de la dernière année, la famille Nemotron 3 (Nano / Super / Ultra) a accumulé plus de 50 millions de téléchargements sur Hugging Face ; cette fois, l’Omni étend les capacités de cette famille aux domaines multimodal et agentic.
Cet article sur le lancement par NVIDIA de Nemotron 3 Nano Omni open source multimodal est apparu pour la première fois sur Chaîne d’info ABMedia。
Related News
Intel augmente ses prix à deux reprises, retarde les livraisons, MediaTek et Supermicro en profitent pour s’emparer de parts de marché sur les CPU
Microsoft et OpenAI renouvellent leur accord : suppression de l’exclusivité, retrait des clauses relatives à l’AGI
Guo Ming-chi : OpenAI s’associe à MediaTek, Qualcomm et Luxshare Precision pour développer des smartphones, avec une production en série prévue pour 2028
Cerebras obtient un accord de 20 milliards de dollars avec OpenAI, valorisation cible de 35 milliards pour l’IPO
Mac Studio : tests en conditions réelles de modèles à grande échelle : attente pour M3 Ultra, solutions en cluster et M5 Ultra