A Google lança o Gemini Omni Flash: edição de vídeo conversacional, integrando YouTube Shorts e Google Flow

GOOGLX-0,05%

Gemini Omni Flash

A Google anunciou no dia 19 de maio, durante o Google I/O 2026, o lançamento da primeira oferta da série Gemini Omni — Gemini Omni Flash — e, em 22 de maio, divulgou oficialmente a especificação técnica no site oficial. Entre as integrações iniciais estão Gemini app, Google Flow e YouTube Shorts.

Funções principais do Gemini Omni Flash já confirmadas

Edição de vídeos conversacional: os usuários editam vídeos usando comandos em linguagem natural; cada instrução é executada de forma acumulativa com base na anterior. O modelo mantém consistência de persona, efeitos físicos confiáveis e memória de cena. Ele permite alterar fundo, estilo, ângulo ou detalhes específicos, sem necessidade de regenerar o trecho inteiro.

Simulação de motor físico avançado: a compreensão intuitiva da Omni sobre gravidade, dinâmica e dinâmica dos fluidos reforça a realismo das cenas, permitindo que os usuários criem efeitos físicos mais precisos, como colisões de objetos, escoamento de líquidos e cenários dinâmicos de reações em cadeia.

Geração com entrada multimodal: a Omni consegue processar qualquer combinação de entradas (imagens, texto, trechos de vídeo, áudio) como um único comando e gerar conteúdos de saída unificados. No início, a entrada de áudio suporta citações por voz; outros tipos de entrada de áudio serão lançados posteriormente.

Integração de conhecimento e visualização de conceitos: a Omni se inspira no Gemini para conhecimento com base em contexto histórico, científico e cultural. Ela vai além de simples correspondência de padrões e pode gerar conteúdos explicativos a partir de prompts curtos; por exemplo, explicar conceitos científicos complexos como o dobramento de proteínas com animações em massa de modelar (stop-motion).

Função de avatar digital (Avatar): os usuários podem criar uma versão digital que inclui a própria voz, gerando vídeos em que aparência e voz são semelhantes às do próprio criador. As funções de edição de áudio e de voz ainda estão em fase de testes e ainda não foram disponibilizadas para todos os usuários.

SynthID: mecanismo de transparência para conteúdo de IA já confirmado

Todos os vídeos criados via Gemini Omni recebem automaticamente a marca d’água digital invisível SynthID, uma tecnologia de marca d’água desenvolvida pela Google DeepMind. Após a inserção, ela não afeta a qualidade visual do vídeo. Os usuários podem validar se um vídeo foi gerado pelo Gemini Omni por meio de três canais já confirmados: Gemini app, Gemini no navegador Chrome e Google Search. A Google afirma que a ferramenta de verificação do SynthID foi criada para ajudar os usuários a entender como conteúdos na internet são criados e editados, como parte de sua política responsável de desenvolvimento de IA.

Canais de acesso confirmados e cronograma de lançamento

Disponível imediatamente: usuários assinantes pagos do Google AI Plus, Pro e Ultra, via Gemini app e Google Flow

Ainda esta semana: usuários do YouTube Shorts e do app YouTube Create, com acesso gratuito

Dentro de algumas semanas: desenvolvedores e clientes empresariais, via Gemini API e Agent Platform API

Perguntas frequentes

Qual é a diferença técnica entre a “modelagem do mundo” do Gemini Omni Flash e os modelos comuns de geração de vídeo?

A Google posiciona o Gemini Omni como um “modelagem do mundo”, o que significa que o modelo não apenas executa o mapeamento de geração de entrada para saída, mas também possui capacidade de inferência causal com base em um repositório de conhecimento do mundo real treinado no Gemini (incluindo leis físicas, contexto cultural, conhecimento histórico e científico). Por exemplo, prever o comportamento dos objetos no cenário seguinte, aplicar efeitos de engine física real e transformar descrições de linguagem em conteúdo visual com significado semântico. Isso difere, em termos de posicionamento arquitetural, de modelos de difusão de vídeo cujo objetivo é apenas a correspondência de padrões.

A marca d’água SynthID pode ser removida ou contornada?

A explicação oficial da Google confirma que a marca d’água SynthID é invisível (não afeta o conteúdo visual do vídeo), incorporada à estrutura digital do vídeo, podendo ser verificada por meio das ferramentas oficiais de verificação da Google. A Google não divulgou, em documentação oficial, o modo técnico específico de implementação da marca d’água. Até o momento, não há registros públicos de avaliações técnicas independentes sobre a confiabilidade e a resistência a adulteração do SynthID.

Quais formatos de entrada o Gemini Omni Flash suporta atualmente e quais tipos de saída serão expandidos no futuro?

Entradas confirmadas: texto, imagens estáticas, trechos de vídeo e áudio de voz (no início). No blog oficial, a Google confirmou que outras categorias de entrada de áudio “em breve” serão disponibilizadas como complemento. Em termos de saída, a versão atual do Omni Flash concentra-se em geração de vídeos. A Google afirma que, no futuro, o Omni será capaz de suportar modos de saída de imagem e áudio na linha Omni, mas o cronograma específico de lançamento ainda não foi confirmado neste anúncio.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários