📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
谷歌推出Gemini Omni——一款可以“模拟世界”的下一代AI视频制作工具
###简要介绍
* 谷歌在2026年I/O大会上推出了Gemini Omni,一款多模态AI模型,旨在从几乎任何输入生成视频和其他媒体。
* DeepMind首席执行官Demis Hassabis表示,Gemini Omni将Gemini与包括Veo、Nano Banana和Genie在内的媒体生成模型结合。
* Gemini Omni Flash将首先通过Flow和Flow Music面向Google AI订阅用户推出。
谷歌在星期二推出了Gemini Omni,这是一款结合了公司Gemini AI模型与媒体生成工具(包括Veo、Nano Banana和Genie)的新型多模态AI模型。
此次宣布是在Google I/O 2026期间,DeepMind首席执行官Demis Hassabis将Gemini Omni描述为“我们可以用任何输入创建任何内容的全新模型”。
“它结合了Gemini的智能与我们最优秀的生成媒体模型,带来了全新的世界理解、多模态和编辑能力,”Hassabis说。
谷歌表示,首个版本Gemini Omni Flash将通过Flow——公司的一款AI电影制作平台,以及专注于AI辅助音乐创作的Flow Music推出。
> 我们推出Gemini Omni:迈向能够用任何东西创造任何内容的模型的第一步——从视频开始。
>
> 它结合了Gemini的智能与我们的生成媒体系统——代表在世界理解、多模态和编辑方面的飞跃 🧵 pic.twitter.com/GAtqzr0VIV
>
> — Google DeepMind (@GoogleDeepMind) 2026年5月19日
Hassabis称Omni是“迈向人工通用智能(AGI)的一步”,他表示谷歌过去一年一直在将Gemini扩展为“能够理解和模拟世界的世界模型AI”。
谷歌的Omni发布建立在Nano Banana的基础上,Nano Banana是公司早期的AI图像编辑模型,去年九月帮助Gemini登顶苹果App Store。Nano Banana广泛用于表情包生成和对话式图像编辑,曾短暂帮助Gemini在应用下载量和谷歌搜索兴趣方面超越ChatGPT,这是自2022年OpenAI的聊天机器人推出以来的首次。
在本月早些时候的_Decrypt_对比中,Nano Banana 2在动漫插图和空间构图测试中优于OpenAI的GPT Image 2,而OpenAI的模型在照片写实和文本渲染方面表现更佳。谷歌现在似乎正将许多这些编辑功能扩展到视频中,通过Gemini Omni实现。
在演示中,谷歌展示了Omni生成一段粘土动画风格的教育视频,讲解蛋白质折叠。公司还展示了对话式编辑工具,可以通过添加新视觉元素和改变环境,修改一段自拍视频。
谷歌表示,Omni即使在用户对视频进行更改后,也能保持角色、背景和动作的一致性——这是许多AI视频模型难以实现的。公司还称,Omni利用Gemini的推理能力理解更广泛的指令,因此用户可以描述他们想要的场景类型,而无需手动解释每个细节。
公司还推出了Flow Agent,这是集成在Google Flow中的AI助手,能够头脑风暴场景、组织素材、推荐剧情变更和批量编辑项目。
其他更新包括Flow Tools,允许用户使用自然语言提示创建自定义编辑流程,无需编码经验。
Hassabis表示,谷歌目前以视频生成为起点,但计划扩大Omni的使用范围,将其视为Gemini多模态设计的长期愿景。
“这一直是我们使用Gemini的目标,也是我们从一开始就将其设计为多模态的原因,”他说。
谷歌未立即回应_Decrypt_的置评请求。