Xiaomi ouvre son OmniVoice en open-source, un modèle de clonage vocal sans exemple prenant en charge 646 langues

Selon Beating, l’équipe Kaldi du laboratoire d’IA de Xiaomi a open-sourcé OmniVoice, un modèle TTS de clonage vocal zero-shot prenant en charge 646 langues. Le modèle clone les caractéristiques de la voix à partir de seulement quelques secondes d’audio de référence et fonctionne dans plusieurs langues — une seule voix peut synthétiser la parole en mandarin, en japonais, en coréen et dans d’autres langues. Tout le code, les poids et les données d’entraînement sont open-sourcés sous licence Apache-2.0.

OmniVoice utilise une architecture simplifiée avec un seul Transformer bidirectionnel qui associe directement le texte à des jetons acoustiques discrets, ce qui permet d’atteindre une inférence 40 fois plus rapide que le temps réel dans PyTorch. Entraîné sur 580 000 heures d’audio issues de 50 jeux de données open-source, OmniVoice a surpassé des systèmes commerciaux en termes de similarité vocale et d’intelligibilité sur 24 langues testées, et a atteint ou dépassé des enregistrements humains dans 102 langues.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Spotify lance aujourd’hui la fonctionnalité de podcasts personnels générés par IA, permettant de les enregistrer dans la bibliothèque

Selon MacRumors, Spotify a lancé une nouvelle fonctionnalité aujourd’hui (8 mai) permettant aux utilisateurs de générer et d’enregistrer des podcasts personnels alimentés par l’IA directement dans leur bibliothèque Spotify. Les utilisateurs peuvent installer et se connecter à la fonctionnalité « Save to Spotify CLI » sur ordinateur, puis utiliser des agents de codage IA d’OpenAI, Anthropic et d’autres t

GateNewsIl y a 10h

Benzinga lance un moteur de traduction coréen et un ensemble de données financières d'IA de 400 millions de mots

Benzinga a récemment lancé un moteur de traduction en coréen ainsi qu’un vaste ensemble de données financières coréennes conçu pour l’entraînement de l’IA, selon l’entreprise. Le système traduit en temps réel l’actualité des marchés américains en coréen tout en préservant la terminologie financière, les références aux tickers et le contexte du marché. Le

GateNewsIl y a 13h

FLock.io participe à une table ronde d'Oxford pour faire avancer le MoU sur une IA souveraine du Sarawak

Selon Foresight News, FLock.io a participé à une discussion en table ronde à l’Université d’Oxford afin de faire avancer un protocole d’accord tripartite sur le développement souverain de l’IA au Sarawak. La discussion a porté sur la souveraineté des données, la collaboration en matière d’IA, la gouvernance de la sécurité des données et le matériel

GateNewsIl y a 14h

WORLD3 lance aujourd’hui le réseau de routage RouterLink alimenté par l’IA, prenant en charge plus de 68 modèles, dont GPT-5,5 et Claude Opus 4,7

D’après ChainCatcher, WORLD3 a lancé aujourd’hui son réseau décentralisé de routage d’IA RouterLink, permettant l’utilisation permanente du domaine routerlink.ai. La plateforme prend désormais en charge 68+ modèles auprès de 20+ fournisseurs, avec une disponibilité de 99,9 % et une vélocité de règlement quotidienne dépassant 1,5 million de dollars en $WAI . La diffusion en direct

GateNewsIl y a 19h

LG CNS lance une plateforme PhysicalWorks pour la gestion d’une flotte de robots mixtes

LG CNS, la branche de services informatiques de LG Group en Corée du Sud, a lancé sa plateforme PhysicalWorks pour entraîner et gérer des flottes mixtes de robots via une couche logicielle unifiée, selon The Korea Herald. Lors d'une démonstration, quatre robots de Unitree, Deep Robotics, Dexmate et Bear Robotics ont déplacé des caisses

CryptoFrontierIl y a 20h

CopilotKit Open Source : implémentation inter-agents pour le framework Claude Artifacts de génération d’interfaces utilisateur

Le framework open source d’interface utilisateur pour agents IA CopilotKit a annoncé le 7 mai le lancement d’Open Generative UI, une implémentation open source de la fonctionnalité Anthropic Claude Artifacts. akshay\_pachaar a résumé l’explication : la version de CopilotKit permet à l’agent, lors de l’exécution, de générer dynamiquement du HTML/SVG, puis de l’afficher dans un iframe sandboxné via un streaming token par token ; l’utilisateur peut voir en temps réel le processus d’assemblage de l’interface, sans avoir à attendre la réponse complète. Avant Anthropic Claude Artifacts, les capacités de génération d’interfaces génératives n’existaient que dans les produits maison d’Anthropic ; CopilotKit apporte le même modèle à…

ChainNewsAbmediaIl y a 21h
Commentaire
0/400
Aucun commentaire