
Google 于 6 月 9 日在官方部落格宣布推出 Gemini 3.5 Live Translate,这是 Gemini Live API 的最新音讯模型,目标是消除即时语音翻译中因等待整句结束而产生的对话停顿。Gemini 3.5 Live Translate 自动侦测 70 多种语言,采用持续生成方式输出翻译。
Gemini 3.5 Live Translate 的已确认技术特性
翻译机制: Gemini 3.5 Live Translate 采用「语音对语音」翻译方式,动态在「等待更多上下文以提升准确度」与「立即输出以跟上说话者」之间即时调整,整体翻译落差为数秒。
语音特征保留: 翻译输出保留说话者的语调(intonation)、节奏(pacing)与音高(pitch),而非以统一机器语音呈现。
与前代的差异(Google 官方确认): 此前的语音翻译系统需等待说话者讲完完整一句才开始翻译,造成对话中断;Gemini 3.5 Live Translate 以持续生成方式取代此等待机制。
三个已确认的同日上线管道
开发者公开预览: Gemini Live API 与 Google AI Studio,2026 年 6 月 9 日起开放。
企业私人预览: Google Meet 企业版,2026 年 6 月起启动私人预览。
消费者全球更新: Android 与 iOS 版 Google 翻译 App 已同步更新;Android 另新增「聆听模式」,将手机贴近耳朵时翻译语音从听筒播出,无需耳机且不影响周遭环境,Google 举例适用场景包括博物馆外语导览或安静场合接外语电话。
已确认的市场竞争格局与合作伙伴
同类竞争产品(已上市): Meta SeamlessM4T、三星 Galaxy AI 即时通话翻译、Apple Live Translation、OpenAI Realtime API。
Grab 整合测试(已确认): 东南亚叫车平台 Grab 正在测试以 Gemini 3.5 Live Translate 实现司机与乘客的即时多语言沟通;Grab 用户每月通过其平台拨打超过 1,000 万通语音通话,语言涵盖泰语、越南语、马来语、印尼语与菲律宾语。
早期合作伙伴回馈(已确认): CJ ENM 和 LiveKit 回馈翻译品质、准确度与延迟均达预期。
常见问题
Gemini 3.5 Live Translate 与先前 Google 翻译语音功能的主要差异是什么?
根据 Google 官方说明,主要差异在于翻译时机的改变。此前的语音翻译需等待说话者讲完整句才开始翻译,造成对话中断;Gemini 3.5 Live Translate 采用持续生成方式,整体落差缩短至数秒,同时保留说话者的语调、节奏与音高。
Android「聆听模式」的使用方式与适用场景为何?
「聆听模式」为 Android 版 Google 翻译的新功能,用户将手机贴近耳朵时,翻译语音从听筒播出,无需搭配蓝牙耳机,也不会通过外置扬声器影响周遭环境。Google 列举的适用场景包括博物馆外语导览及安静场合接外语电话。
Gemini 3.5 Live Translate 目前如何取得?
截至 2026 年 6 月 9 日,Gemini 3.5 Live Translate 通过三个管道开放:Gemini Live API 和 Google AI Studio 的开发者公开预览;Google Meet 的企业私人预览(本月启动);以及 Android 和 iOS 版 Google 翻译 App 的全球更新。