XAI Grok 推出自定义语音：2 分钟克隆、双阶段身份验证

鏈新聞abmedia

2026-05-03 01:35:06

xAI 5 月 2 日于官方博客推出 Grok Custom Voices 功能，用户只需在 xAI 控制台录制约 1 分钟的自然语音，系统会在 2 分钟内处理完成，产出可用于 TTS 与 Voice Agent API 的定制声音模型。同步推出的还有 Grok 4.3 模型，以及汇总全部声音资源的 Voice Library 介面。Custom Voices 还设计双阶段身份验证机制，防止克隆他人声音。

功能：1 分钟录音、2 分钟生成、整合 TTS 与 Voice Agent API

用户在 xAI 控制台录制约 1 分钟的自然语音，后台流程依序完成：（1）身份验证、（2）语音处理、（3）模型产出。整体 2 分钟内可拿到可用的声音模型。Custom Voices 继承所有 TTS 能力，包含 speech tags（语音标签）、多语输出，以及 REST 与 WebSocket 串流；可直接搭配 xAI 的 TTS 端点或 Voice Agent API 用于即时对话 agent。

同步推出的 Voice Library 是 xAI 控制台中统一管理声音资源的介面，可浏览、预览、管理用户自制与预建的所有声音，避免分散在多个介面。预建声音库提供 80 种以上声音，支援 28 种语言。

双阶段身份验证：防止克隆他人声音

Custom Voices 在语音生成前设置两道身份验证关卡：第一道，用户朗读一段验证句，系统即时报文转录该段语音；第二道，系统从验证句与完整录音中分别计算 speaker embedding（说话者特征向量），比对两者是否属于同一人。只有两阶段都通过，才会进入声音模型产出流程。

xAI 明确声明：用户无法用既有录音档克隆声音，也无法克隆他人声音。这套设计排除“拿到他人公开演讲录音直接复制”的使用情境，把克隆声音的范围限缩在“用户本人即时录制”这一一个入口。对于关注 AI 语音生成滥用议题（如电话诈骗、未经授权配音）的观察者而言，这套机制是 xAI 对防伪议题的具体回应。

后续观察：与 Grok 4.3 同步推出、Voice Library 扩增节奏

Custom Voices 与 Grok 4.3 同日推出，xAI 将“模型升级 + 语音工具线完整化”绑在同一波发表。下一个观察点是 Voice Library 预建声音库从 80 种往上扩增的节奏，以及 28 语言版图能否进一步覆盖繁体中文等小语种；另一个观察点是 Voice Agent API 的具体采用案例公开，特别是客服自动化、podcast 录制、多语客户服务等场景的整合示例。

这篇文章 xAI Grok 推 Custom Voices：2 分钟克隆、双阶段身份验证最早出现在链新闻 ABMedia。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。