谷歌推出Gemini Omni——一款可以“模拟世界”的下一代AI视频制作工具

2026-05-19 19:31:28

###简要介绍

* 谷歌在2026年I/O大会上推出了Gemini Omni，一款多模态AI模型，旨在从几乎任何输入生成视频和其他媒体。
* DeepMind首席执行官Demis Hassabis表示，Gemini Omni将Gemini与包括Veo、Nano Banana和Genie在内的媒体生成模型结合。
* Gemini Omni Flash将首先通过Flow和Flow Music面向Google AI订阅用户推出。

谷歌在星期二推出了Gemini Omni，这是一款结合了公司Gemini AI模型与媒体生成工具（包括Veo、Nano Banana和Genie）的新型多模态AI模型。
此次宣布是在Google I/O 2026期间，DeepMind首席执行官Demis Hassabis将Gemini Omni描述为“我们可以用任何输入创建任何内容的全新模型”。
“它结合了Gemini的智能与我们最优秀的生成媒体模型，带来了全新的世界理解、多模态和编辑能力，”Hassabis说。

谷歌表示，首个版本Gemini Omni Flash将通过Flow——公司的一款AI电影制作平台，以及专注于AI辅助音乐创作的Flow Music推出。

> 我们推出Gemini Omni：迈向能够用任何东西创造任何内容的模型的第一步——从视频开始。
>
> 它结合了Gemini的智能与我们的生成媒体系统——代表在世界理解、多模态和编辑方面的飞跃 🧵 pic.twitter.com/GAtqzr0VIV
>
> — Google DeepMind (@GoogleDeepMind) 2026年5月19日

Hassabis称Omni是“迈向人工通用智能（AGI）的一步”，他表示谷歌过去一年一直在将Gemini扩展为“能够理解和模拟世界的世界模型AI”。
谷歌的Omni发布建立在Nano Banana的基础上，Nano Banana是公司早期的AI图像编辑模型，去年九月帮助Gemini登顶苹果App Store。Nano Banana广泛用于表情包生成和对话式图像编辑，曾短暂帮助Gemini在应用下载量和谷歌搜索兴趣方面超越ChatGPT，这是自2022年OpenAI的聊天机器人推出以来的首次。

在本月早些时候的_Decrypt_对比中，Nano Banana 2在动漫插图和空间构图测试中优于OpenAI的GPT Image 2，而OpenAI的模型在照片写实和文本渲染方面表现更佳。谷歌现在似乎正将许多这些编辑功能扩展到视频中，通过Gemini Omni实现。

在演示中，谷歌展示了Omni生成一段粘土动画风格的教育视频，讲解蛋白质折叠。公司还展示了对话式编辑工具，可以通过添加新视觉元素和改变环境，修改一段自拍视频。
谷歌表示，Omni即使在用户对视频进行更改后，也能保持角色、背景和动作的一致性——这是许多AI视频模型难以实现的。公司还称，Omni利用Gemini的推理能力理解更广泛的指令，因此用户可以描述他们想要的场景类型，而无需手动解释每个细节。
公司还推出了Flow Agent，这是集成在Google Flow中的AI助手，能够头脑风暴场景、组织素材、推荐剧情变更和批量编辑项目。
其他更新包括Flow Tools，允许用户使用自然语言提示创建自定义编辑流程，无需编码经验。
Hassabis表示，谷歌目前以视频生成为起点，但计划扩大Omni的使用范围，将其视为Gemini多模态设计的长期愿景。
“这一直是我们使用Gemini的目标，也是我们从一开始就将其设计为多模态的原因，”他说。

谷歌未立即回应_Decrypt_的置评请求。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
TradFi交易分享挑战
16.58万热度
#
PYTH今日解锁21.3亿枚代币
136.94万热度
#
Polymarket每日热点
43.26万热度
#
特朗普推迟打击伊朗
1608.88万热度
#
Gate广场披萨节
166.89万热度

谷歌推出Gemini Omni——一款可以“模拟世界”的下一代AI视频制作工具

热门话题

TradFi交易分享挑战

PYTH今日解锁21.3亿枚代币

Polymarket每日热点

特朗普推迟打击伊朗

Gate广场披萨节

置顶