谷歌宣布 Gemini 3.5 实时翻译,支持 70+ 种语言的语音翻译

Google 宣布 Gemini 3.5 Live Translate,这是一款用于语音到语音的 AI 模型,能够在超过 70 种语言之间提供即时的语音到语音翻译。该发布将实时翻译的可用性扩展到此前针对特定 Google 手机或耳机的要求之外,并提供了比先前实现更低的延迟。多年来,Google 将实时翻译作为其开创性的机器学习实验之一持续推进;此前曾在去年先于今天的更广泛部署,在 Translate 应用中推出有限的实时翻译功能。

Gemini 3.5 Live Translate 技术规格与模型家族

Gemini 3.5 Live Translate 属于在 I/O 推出的 3.5 家族版本。在今天之前,Google 只推出了 Flash 版本,预计 Pro 模型将在未来几周发布。该语音到语音模型经过调优,可自动检测并翻译超过 70 种语言。

据 Google 称,Gemini 3.5 Live Translate 速度足以跟上正常对话:在语音者之后仅延迟几秒,同时还能匹配语调、语速和音高。该模型生成的语音输出听起来更像原始说话者,而不是通用的“机器人”声音。Google 在受控条件下录制了演示,展示了这些能力。

推出范围覆盖 Google 生态系统与用户访问

Gemini 3.5 Live Translate 正在向 Google 生态系统的多个部分逐步推出。该模型可在 Google Meet 中用于视频通话期间的语音翻译。用户无需等待更长的验证周期即可使用翻译能力。

开发者 API 访问与自动处理功能

开发者可以在 Gemini Live API 或 AI Studio 中通过公开预览开始构建。模型会持续处理语音,并自动处理所有多语言输入,从而免去开发者手动配置设置。它还会在繁忙环境中过滤背景噪音。

FAQ

Gemini 3.5 Live Translate 支持哪些语言?
Gemini 3.5 Live Translate 支持超过 70 种语言,具备自动检测与翻译能力。

用户在哪里可以访问 Gemini 3.5 Live Translate?
该模型正在向 Google 生态系统的多个部分逐步推出,包括用于语音翻译的 Google Meet,开发者可通过 Gemini Live API 或 AI Studio 的公开预览访问。

Gemini 3.5 Live Translate 如何处理语音?
该模型会持续处理语音,自动处理多语言输入而无需手动配置,并在繁忙环境中过滤背景噪音,同时匹配说话者的语调、语速和音高。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论