Xiaomi disponibiliza em código aberto o OmniVoice, modelo de clonagem de voz com zero-shot compatível com 646 idiomas

De acordo com Beating, a equipe Kaldi do AI Lab da Xiaomi disponibilizou em código aberto o OmniVoice, um modelo de TTS para clonagem de voz zero-shot que oferece suporte a 646 idiomas. O modelo clona características da voz a partir de apenas segundos de áudio de referência e funciona entre idiomas — uma única voz pode sintetizar fala em mandarim, japonês, coreano e outros idiomas. Todo o código, pesos e dados de treinamento são disponibilizados em código aberto sob licença Apache-2.0.

O OmniVoice usa uma arquitetura simplificada com um único Transformer bidirecional que mapeia diretamente texto para tokens acústicos discretos, alcançando inferência 40x mais rápida que o tempo real no PyTorch. Treinado com 580.000 horas de áudio de 50 conjuntos de dados open-source, o OmniVoice superou sistemas comerciais em similaridade de voz e inteligibilidade em 24 idiomas testados e correspondeu ou superou gravações humanas em 102 idiomas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários