Message de Gate News, 17 avril — Google a dévoilé Gemini 3.1 Flash TTS, un modèle avancé de synthèse vocale doté de fonctionnalités d’expression émotionnelle et de contrôle améliorées, le 15 avril. Le nouveau modèle sera déployé progressivement via des API développeur, Vertex AI à destination des entreprises, et des outils de collaboration.
Les capacités clés du modèle incluent des balises audio basées sur le langage naturel pour affiner la vitesse, l’intonation et l’émotion, ainsi qu’un « Director Mode » permettant de spécifier des scènes et les rôles des personnages afin de générer des sorties vocales plus nuancées. Une fonctionnalité multi-intervenants permet de générer un dialogue simultanément, offrant des flux de conversation plus naturels adaptés aux podcasts, aux contenus audio et aux assistants IA. Le modèle prend en charge plus de 70 langues et dialectes, reflétant les accents et les expressions régionales pour des expériences vocales localisées à l’échelle mondiale.
Google a mis l’accent sur les performances et l’efficacité des coûts, obtenant de hauts scores sur des références d’évaluation humaine à l’aveugle tout en réduisant les coûts de calcul grâce à son architecture Flash — conçue pour une adoption à grande échelle en entreprise. L’audio généré inclut le marquage filigrane SynthID pour identifier les contenus générés par IA et lutter contre la désinformation.
Ce mouvement reflète une concurrence de plus en plus forte dans les interfaces vocales. OpenAI combine des fonctionnalités vocales en temps réel avec une IA conversationnelle pour des interactions plus proches de l’humain, tandis que Meta élargit ses investissements dans des personnages IA avec des expériences sociales basées sur la voix. Des observateurs du secteur notent que, bien que le jeu d’acteur et le travail créatif de haut niveau puissent encore rester pilotés par des humains pour le moment, les marchés de production répétitifs et à grande échelle pourraient voir une adoption progressive de l’IA dans le doublage, la publicité et les secteurs des livres audio.
Related News