Menurut Beating, tim Kaldi di AI Lab Xiaomi telah merilis open-source OmniVoice, model TTS cloning suara zero-shot yang mendukung 646 bahasa. Model ini meniru karakteristik suara hanya dari beberapa detik audio referensi dan bekerja lintas bahasa—satu suara dapat mensintesis ucapan dalam bahasa Mandarin, Jepang, Korea, dan bahasa lainnya. Semua kode, bobot, dan data pelatihan dirilis open-source di bawah lisensi Apache-2.0.
OmniVoice memakai arsitektur yang disederhanakan dengan satu Transformer bidirectional yang langsung memetakan teks ke token akustik diskrit, sehingga mencapai inferensi 40x lebih cepat dari real-time di PyTorch. Dilatih dengan 580.000 jam audio dari 50 kumpulan data open-source, OmniVoice mengungguli sistem komersial dalam kemiripan suara dan keterpahaman di 24 bahasa yang diuji serta menyamai atau melampaui rekaman manusia di 102 bahasa.