Google Gemini 3.5 翻译升级，70 种语言实时口译结束停顿

2026-06-10 03:13:48

Google 于 6 月 9 日在官方部落格宣布推出 Gemini 3.5 Live Translate，这是 Gemini Live API 的最新音讯模型，目标是消除即时语音翻译中因等待整句结束而产生的对话停顿。Gemini 3.5 Live Translate 自动侦测 70 多种语言，采用持续生成方式输出翻译。

Gemini 3.5 Live Translate 的已确认技术特性

翻译机制： Gemini 3.5 Live Translate 采用「语音对语音」翻译方式，动态在「等待更多上下文以提升准确度」与「立即输出以跟上说话者」之间即时调整，整体翻译落差为数秒。

语音特征保留：翻译输出保留说话者的语调（intonation）、节奏（pacing）与音高（pitch），而非以统一机器语音呈现。

与前代的差异（Google 官方确认）：此前的语音翻译系统需等待说话者讲完完整一句才开始翻译，造成对话中断；Gemini 3.5 Live Translate 以持续生成方式取代此等待机制。

三个已确认的同日上线管道

开发者公开预览： Gemini Live API 与 Google AI Studio，2026 年 6 月 9 日起开放。

企业私人预览： Google Meet 企业版，2026 年 6 月起启动私人预览。

消费者全球更新： Android 与 iOS 版 Google 翻译 App 已同步更新；Android 另新增「聆听模式」，将手机贴近耳朵时翻译语音从听筒播出，无需耳机且不影响周遭环境，Google 举例适用场景包括博物馆外语导览或安静场合接外语电话。

已确认的市场竞争格局与合作伙伴

同类竞争产品（已上市）： Meta SeamlessM4T、三星 Galaxy AI 即时通话翻译、Apple Live Translation、OpenAI Realtime API。

Grab 整合测试（已确认）：东南亚叫车平台 Grab 正在测试以 Gemini 3.5 Live Translate 实现司机与乘客的即时多语言沟通；Grab 用户每月通过其平台拨打超过 1,000 万通语音通话，语言涵盖泰语、越南语、马来语、印尼语与菲律宾语。

早期合作伙伴回馈（已确认）： CJ ENM 和 LiveKit 回馈翻译品质、准确度与延迟均达预期。

常见问题

Gemini 3.5 Live Translate 与先前 Google 翻译语音功能的主要差异是什么？

根据 Google 官方说明，主要差异在于翻译时机的改变。此前的语音翻译需等待说话者讲完整句才开始翻译，造成对话中断；Gemini 3.5 Live Translate 采用持续生成方式，整体落差缩短至数秒，同时保留说话者的语调、节奏与音高。

Android「聆听模式」的使用方式与适用场景为何？

「聆听模式」为 Android 版 Google 翻译的新功能，用户将手机贴近耳朵时，翻译语音从听筒播出，无需搭配蓝牙耳机，也不会通过外置扬声器影响周遭环境。Google 列举的适用场景包括博物馆外语导览及安静场合接外语电话。

Gemini 3.5 Live Translate 目前如何取得？

截至 2026 年 6 月 9 日，Gemini 3.5 Live Translate 通过三个管道开放：Gemini Live API 和 Google AI Studio 的开发者公开预览；Google Meet 的企业私人预览（本月启动）；以及 Android 和 iOS 版 Google 翻译 App 的全球更新。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。