Google dévoile Gemini Omni—Un créateur vidéo IA de nouvelle génération capable de « simuler le monde »

En bref

* Google a présenté Gemini Omni lors de l’I/O 2026 comme un modèle d’IA multimodal conçu pour générer des vidéos et d’autres médias à partir de presque n’importe quelle entrée.
* Le PDG de DeepMind, Demis Hassabis, a déclaré que Gemini Omni combine Gemini avec des modèles de génération de médias, notamment Veo, Nano Banana et Genie.
* Gemini Omni Flash sera lancé en premier via Flow et Flow Music pour les abonnés Google AI.

Google a présenté mardi Gemini Omni, un nouveau modèle d’IA multimodal qui combine les modèles Gemini d’entreprise avec ses outils de génération de médias, y compris Veo, Nano Banana et Genie.
L’annonce a été faite lors de Google I/O 2026, où le PDG de DeepMind, Demis Hassabis, a décrit Gemini Omni comme « notre nouveau modèle capable de créer n’importe quoi à partir de n’importe quelle entrée ».
« Il combine l’intelligence de Gemini avec le meilleur de nos modèles de médias génératifs pour un nouveau niveau de compréhension du monde, de multimodalité et de montage », a déclaré Hassabis.

Google a indiqué que la première version, Gemini Omni Flash, sera lancée via Flow, la plateforme de réalisation de films par IA de l’entreprise, et Flow Music, qui se concentre sur la création musicale assistée par IA.

> Nous lançons Gemini Omni : notre première étape vers un modèle capable de créer n’importe quoi à partir de n’importe quoi — en commençant par la vidéo.
>
> Il combine l’intelligence de Gemini avec nos systèmes de médias génératifs — représentant une avancée dans la compréhension du monde, la multimodalité et le montage 🧵 pic.twitter.com/GAtqzr0VIV
>
> — Google DeepMind (@GoogleDeepMind) 19 mai 2026

Qualifiant Omni de « pas vers l’intelligence artificielle générale », Hassabis a déclaré que Google a passé l’année dernière à étendre Gemini en « un modèle d’IA de modélisation du monde capable de comprendre et de simuler le monde ».
Le déploiement d’Omni par Google s’appuie sur la popularité de Nano Banana, le modèle d’IA de retouche d’images antérieur de l’entreprise qui a aidé à propulser Gemini en tête de l’App Store d’Apple en septembre dernier. Nano Banana est devenu largement utilisé pour la génération de mèmes et la retouche d’images conversationnelle, aidant brièvement Gemini à dépasser ChatGPT en téléchargements d’applications et en intérêt pour la recherche Google pour la première fois depuis le lancement du chatbot d’OpenAI en 2022.

Dans la comparaison de Decrypt plus tôt ce mois-ci, Nano Banana 2 a surpassé GPT Image 2 d’OpenAI dans les tests d’illustration d’anime et de composition spatiale, tandis que le modèle d’OpenAI performait mieux en photoréalisme et en rendu de texte. Google semble maintenant étendre bon nombre de ces fonctionnalités de montage à la vidéo via Gemini Omni.

Lors de la présentation, Google a montré Omni générant une vidéo éducative en style claymation expliquant le pliage des protéines. La société a également présenté des outils de montage conversationnels qui modifiaient une vidéo selfie en ajoutant de nouveaux éléments visuels et en changeant l’environnement environnant.
Google affirme qu’Omni peut maintenir la cohérence des personnages, des arrière-plans et des mouvements même après que les utilisateurs aient apporté des modifications à une vidéo — ce avec quoi de nombreux modèles d’IA pour vidéos ont du mal. La société indique également qu’Omni utilise les capacités de raisonnement de Gemini pour comprendre des instructions plus générales, permettant aux utilisateurs de décrire le type de scène souhaitée sans expliquer manuellement chaque détail.
La société a également présenté Flow Agent, un assistant IA intégré à Google Flow qui peut brainstormer des scènes, organiser des ressources, recommander des changements d’intrigue et effectuer des montages par lots.
Les mises à jour supplémentaires incluent Flow Tools, qui permet aux utilisateurs de créer des flux de montage personnalisés en utilisant des invites en langage naturel sans expérience en codage.
Hassabis a déclaré que Google commence par la génération vidéo, mais prévoit d’étendre l’accès à Omni, décrivant cela comme la vision à long terme derrière la conception multimodale de Gemini.
« C’était toujours notre objectif avec Gemini, et c’est pourquoi nous l’avons construit pour être multimodal dès le départ », a-t-il dit.

Google n’a pas immédiatement répondu à une demande de commentaire de Decrypt.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé