Xiaomi Membuka-Sumber OmniVoice, Model Kloning Suara Zero-Shot yang Mendukung 646 Bahasa

Menurut Beating, tim Kaldi di AI Lab Xiaomi telah merilis open-source OmniVoice, model TTS cloning suara zero-shot yang mendukung 646 bahasa. Model ini meniru karakteristik suara hanya dari beberapa detik audio referensi dan bekerja lintas bahasa—satu suara dapat mensintesis ucapan dalam bahasa Mandarin, Jepang, Korea, dan bahasa lainnya. Semua kode, bobot, dan data pelatihan dirilis open-source di bawah lisensi Apache-2.0.

OmniVoice memakai arsitektur yang disederhanakan dengan satu Transformer bidirectional yang langsung memetakan teks ke token akustik diskrit, sehingga mencapai inferensi 40x lebih cepat dari real-time di PyTorch. Dilatih dengan 580.000 jam audio dari 50 kumpulan data open-source, OmniVoice mengungguli sistem komersial dalam kemiripan suara dan keterpahaman di 24 bahasa yang diuji serta menyamai atau melampaui rekaman manusia di 102 bahasa.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar