XAI Grok 推出自定义语音:2 分钟克隆、双阶段身份验证

鏈新聞abmedia

xAI 5 月 2 日于官方博客推出 Grok Custom Voices 功能,用户只需在 xAI 控制台录制约 1 分钟的自然语音,系统会在 2 分钟内处理完成,产出可用于 TTS 与 Voice Agent API 的定制声音模型。同步推出的还有 Grok 4.3 模型,以及汇总全部声音资源的 Voice Library 介面。Custom Voices 还设计双阶段身份验证机制,防止克隆他人声音。

功能:1 分钟录音、2 分钟生成、整合 TTS 与 Voice Agent API

用户在 xAI 控制台录制约 1 分钟的自然语音,后台流程依序完成:(1)身份验证、(2)语音处理、(3)模型产出。整体 2 分钟内可拿到可用的声音模型。Custom Voices 继承所有 TTS 能力,包含 speech tags(语音标签)、多语输出,以及 REST 与 WebSocket 串流;可直接搭配 xAI 的 TTS 端点或 Voice Agent API 用于即时对话 agent。

同步推出的 Voice Library 是 xAI 控制台中统一管理声音资源的介面,可浏览、预览、管理用户自制与预建的所有声音,避免分散在多个介面。预建声音库提供 80 种以上声音,支援 28 种语言。

双阶段身份验证:防止克隆他人声音

Custom Voices 在语音生成前设置两道身份验证关卡:第一道,用户朗读一段验证句,系统即时报文转录该段语音;第二道,系统从验证句与完整录音中分别计算 speaker embedding(说话者特征向量),比对两者是否属于同一人。只有两阶段都通过,才会进入声音模型产出流程。

xAI 明确声明:用户无法用既有录音档克隆声音,也无法克隆他人声音。这套设计排除“拿到他人公开演讲录音直接复制”的使用情境,把克隆声音的范围限缩在“用户本人即时录制”这一一个入口。对于关注 AI 语音生成滥用议题(如电话诈骗、未经授权配音)的观察者而言,这套机制是 xAI 对防伪议题的具体回应。

后续观察:与 Grok 4.3 同步推出、Voice Library 扩增节奏

Custom Voices 与 Grok 4.3 同日推出,xAI 将“模型升级 + 语音工具线完整化”绑在同一波发表。下一个观察点是 Voice Library 预建声音库从 80 种往上扩增的节奏,以及 28 语言版图能否进一步覆盖繁体中文等小语种;另一个观察点是 Voice Agent API 的具体采用案例公开,特别是客服自动化、podcast 录制、多语客户服务等场景的整合示例。

这篇文章 xAI Grok 推 Custom Voices:2 分钟克隆、双阶段身份验证 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论