谷歌發布 Gemini Omni Flash:對話式影片編輯,整合 YouTube Shorts 和 Google Flow

Market Whisper
GOOGLX-0.05%

Gemini Omni Flash

Google 於 5 月 19 日在 Google I/O 2026 上宣布推出 Gemini Omni 系列的首款產品——Gemini Omni Flash,並於 5 月 22 日在官方網站正式發布技術說明,首批整合平台包括 Gemini 應用、Google Flow 和 YouTube Shorts。

Gemini Omni Flash 的已確認核心功能

對話式影片編輯:用戶通過自然語言指令編輯影片,每條指令在前一條的基礎上累積執行;模型維持角色一致性、可靠的物理效果和場景記憶,支持更改背景、風格、角度或具體細節,無需重新生成整個片段。

進階物理引擎模擬:Omni 對重力、動能和流體動力學的直觀理解強化了場景的真實性,允許用戶創建更精確的物理效果,如物體碰撞、液體流動和連鎖反應等動態場景。

多模態輸入生成:Omni 可將任意輸入組合(圖像、文字、影片片段、音訊)作為單一指令處理,生成統一的輸出內容;初期音訊輸入支持語音引用,其他音訊輸入類型將在後續推出。

知識整合與概念視覺化:Omni 借鑒 Gemini 對歷史、科學和文化背景的知識,超越單純的模式匹配,可根據簡短提示生成解釋性內容,例如以黏土動畫解釋蛋白質折疊等複雜科學概念。

數位虛擬形象(Avatar)功能:用戶可創建包含自身聲音的數位版本,生成外觀和聲音均與本人相似的影片;音訊和語音編輯功能仍在測試階段,尚未面向所有用戶開放。

SynthID 浮水印:已確認的 AI 內容透明度機制

所有通過 Gemini Omni 創建的影片均自動嵌入 SynthID 數位浮水印,這是由 Google DeepMind 開發的不可見水印技術,嵌入後不影響影片的視覺品質。用戶可通過三個已確認的渠道驗證影片是否由 Gemini Omni 生成:Gemini 應用、Chrome 瀏覽器中的 Gemini、Google 搜尋。Google 表示,SynthID 的驗證工具旨在幫助用戶了解網路上內容的創建和編輯方式,作為其負責任 AI 開發政策的組成部分。

已確認的訪問渠道與推出時間表

立即可用:Google AI Plus、Pro 和 Ultra 付費訂閱用戶,通過 Gemini 應用和 Google Flow

本週內:YouTube Shorts 和 YouTube Create 應用用戶,免費提供

數週內:開發者和企業客戶,通過 Gemini API 和 Agent Platform API

常見問題

Gemini Omni Flash 中的「世界模型」定位與一般影片生成模型有何技術差異?

Google 將 Gemini Omni 定位為「世界模型」,意指模型不僅執行輸入到輸出的生成映射,還具備基於 Gemini 訓練的真實世界知識庫(包括物理規律、文化背景、歷史和科學知識)進行因果推斷的能力,例如預測場景中物體接下來的行為、應用真實物理引擎效果,以及將語言描述轉化為有語義意義的視覺內容。這與純粹基於模式匹配的影片擴散模型在設計目標上存在架構層面的定位差異。

SynthID 浮水印是否可以被移除或繞過?

Google 的官方說明確認 SynthID 浮水印是不可見的(不影響影片視覺內容),嵌入在影片的數位結構中,可透過 Google 的官方驗證工具核實。Google 未在官方文件中披露浮水印的具體技術實現方式,關於 SynthID 的可靠性和抗篡改性的獨立技術評估目前尚無公開記錄。

Gemini Omni Flash 目前支持哪些輸入格式,未來將擴展哪些輸出類型?

已確認的輸入支持:文字、靜態圖像、影片片段、語音音訊(初期)。Google 在官方博客確認,其他類型的音訊輸入「很快」將作為補充推出。在輸出方面,當前 Omni Flash 版本的輸出聚焦於影片;Google 表示未來將在 Omni 系列中支持影像和音訊輸出模式,但具體推出時間表尚未在本次公告中確認。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆