Google выпустила Gemini Omni Flash: интерактивное видеоредактирование, объединяющее YouTube Shorts и Google Flow

GOOGLX-0,01%

Gemini Omni Flash

Google 19 мая на Google I/O 2026 объявила о выпуске первого продукта серии Gemini Omni — Gemini Omni Flash, а 22 мая на официальном сайте официально опубликовала техническое описание; в первую очередь платформа будет включать интеграцию с Gemini приложениями, Google Flow и YouTube Shorts.

Подтверждённые ключевые функции Gemini Omni Flash

Интерактивное видеоредактирование через диалог: пользователи редактируют видео с помощью команд на естественном языке; каждая последующая инструкция выполняется с накоплением на основе предыдущей; модель сохраняет согласованность ролей, надёжные физические эффекты и память о сцене, поддерживает изменение фона, стиля, угла или конкретных деталей без необходимости заново генерировать весь фрагмент.

Углублённое моделирование физического движка: интуитивное понимание Omni гравитации, кинематики и гидродинамики усиливает реалистичность сцен, позволяя пользователям создавать более точные физические эффекты, например динамические сценарии с столкновениями объектов, течением жидкостей и цепными реакциями.

Мультимодальный ввод для генерации: Omni может обрабатывать любые комбинации входных данных (изображения, текст, фрагменты видео, аудио) как единую команду и генерировать единообразный выходной контент; на старте поддерживается ввод аудио с голосовыми ссылками, другие типы аудиоввода будут представлены в дальнейшем.

Интеграция знаний и визуализация концепций: Omni заимствует знания Gemini по истории, науке и культурному контексту; это выходит за рамки простого сопоставления шаблонов и позволяет генерировать пояснительный контент по кратким подсказкам, например объяснять сложные научные концепции вроде сворачивания белков с помощью глиняной анимации.

Функция цифрового виртуального образа (Avatar): пользователи могут создать цифровую версию с собственным голосом, генерируя видео, где внешность и голос будут похожи на оригинал; функции редактирования аудио и голоса остаются на этапе тестирования и пока не доступны для всех пользователей.

SynthID водяные знаки: подтверждённый механизм прозрачности AI-контента

Все видео, созданные через Gemini Omni, автоматически встраивают SynthID цифровые водяные знаки — это невидимая технология водяных знаков, разработанная Google DeepMind; после встраивания она не влияет на визуальное качество видео. Пользователи могут проверить, создано ли видео Gemini Omni, через три подтверждённых канала: приложение Gemini, Gemini в браузере Chrome и Google Поиск. Google заявляет, что инструменты верификации SynthID предназначены помочь пользователям понять, как создаётся и редактируется контент в интернете, и являются частью его политики ответственной разработки AI.

Подтверждённые каналы доступа и график релиза

Доступно сразу: платные подписчики AI Plus, Pro и Ultra от Google — через приложение Gemini и Google Flow

На этой неделе: пользователи YouTube Shorts и приложения YouTube Create — бесплатно

В течение нескольких недель: разработчики и корпоративные клиенты — через Gemini API и Agent Platform API

Частые вопросы

Чем технически отличается позиционирование «world model» в Gemini Omni Flash от обычных моделей генерации видео?

Google позиционирует Gemini Omni как «world model», то есть модель не только выполняет генеративное отображение ввода в вывод, но и обладает способностью к причинным выводам на основе реального мира: наработанная Gemini база знаний (включая физические законы, культурный контекст, исторические и научные знания). Например, это включает предсказание дальнейших действий объектов в сцене, применение эффектов реального физического движка и преобразование языкового описания в визуальный контент со смыслом. Это отличается по архитектурной постановке задачи от видеомоделей диффузии, которые основаны исключительно на сопоставлении шаблонов.

Можно ли удалить или обойти водяные знаки SynthID?

Официальные разъяснения Google подтверждают, что водяные знаки SynthID невидимы (не влияют на визуальный контент видео) и встраиваются в цифровую структуру видео; это можно проверить с помощью официальных инструментов верификации Google. Google не раскрывала в официальной документации конкретные технические методы реализации водяного знака; независимых публичных оценок надёжности и устойчивости SynthID к вмешательству на текущий момент нет.

Какие форматы ввода поддерживает Gemini Omni Flash и какие типы выходов будут расширены в будущем?

Поддерживаемый подтверждённый ввод: текст, статические изображения, фрагменты видео, аудио (на старте). В официальном блоге Google подтверждено, что другие типы аудиоввода «скоро» будут добавлены как дополнение. Что касается вывода: текущая версия Omni Flash фокусируется на видео; Google заявляет, что в будущих версиях Omni будет поддерживать режимы вывода изображений и аудио, но конкретный график релиза ещё не подтверждён в рамках этого объявления.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев