根據 Beating,Xiaomi 的 AI Lab Kaldi 團隊已將 OmniVoice 進行開源。該模型是一種零樣本語音克隆的 TTS 模型,支援 646 種語言。該模型僅需幾秒的參考音訊即可克隆語音特徵,並能跨語言運作——同一個聲音可以合成中文、日文、韓文以及其他語言的語音。所有程式碼、權重與訓練資料皆在 Apache-2.0 授權下開源。
OmniVoice 採用簡化架構,使用單一雙向 Transformer,直接將文字對應到離散的聲學代幣,並在 PyTorch 中實現比即時快 40 倍的推論速度。OmniVoice 使用來自 50 個開源資料集的 580,000 小時音訊進行訓練,在針對 24 種測試語言的語音相似度與可懂度方面,表現優於商業系統;並在 102 種語言中達到或超過人類錄音的水準。
Related News