小米開源 OmniVoice,支援 646 種語言的零樣本語音克隆模型

根據 Beating,Xiaomi 的 AI Lab Kaldi 團隊已將 OmniVoice 進行開源。該模型是一種零樣本語音克隆的 TTS 模型,支援 646 種語言。該模型僅需幾秒的參考音訊即可克隆語音特徵,並能跨語言運作——同一個聲音可以合成中文、日文、韓文以及其他語言的語音。所有程式碼、權重與訓練資料皆在 Apache-2.0 授權下開源。

OmniVoice 採用簡化架構,使用單一雙向 Transformer,直接將文字對應到離散的聲學代幣,並在 PyTorch 中實現比即時快 40 倍的推論速度。OmniVoice 使用來自 50 個開源資料集的 580,000 小時音訊進行訓練,在針對 24 種測試語言的語音相似度與可懂度方面,表現優於商業系統;並在 102 種語言中達到或超過人類錄音的水準。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆