O Google revela o Gemini Omni—Um construtor de vídeos de IA de próxima geração que pode 'Simular o Mundo'

Resumidamente

* O Google apresentou o Gemini Omni na I/O 2026 como um modelo de IA multimodal projetado para gerar vídeo e outros meios a partir de quase qualquer entrada.
* O CEO da DeepMind, Demis Hassabis, afirmou que o Gemini Omni combina o Gemini com modelos de geração de mídia, incluindo Veo, Nano Banana e Genie.
* O Gemini Omni Flash será lançado primeiro através do Flow e Flow Music para assinantes do Google AI.

O Google na terça-feira apresentou o Gemini Omni, um novo modelo de IA multimodal que combina os modelos de IA Gemini da empresa com suas ferramentas de geração de mídia, incluindo Veo, Nano Banana e Genie.
O anúncio ocorreu durante a Google I/O 2026, onde o CEO da DeepMind, Demis Hassabis, descreveu o Gemini Omni como “nosso novo modelo que pode criar qualquer coisa a partir de qualquer entrada.”
“Ele combina a inteligência do Gemini com o melhor de nossos modelos de mídia generativa para um novo nível de compreensão do mundo, multimodalidade e edição,” disse Hassabis.

O Google afirmou que o primeiro lançamento, o Gemini Omni Flash, será disponibilizado através do Flow, a plataforma de cinema de IA da empresa, e do Flow Music, que foca na criação musical assistida por IA.

> Estamos lançando o Gemini Omni: nosso primeiro passo em direção a um modelo que pode criar qualquer coisa a partir de qualquer coisa - começando com vídeo.
>
> Ele combina a inteligência do Gemini com nossos sistemas de mídia generativa - representando um avanço na compreensão do mundo, multimodalidade e edição 🧵 pic.twitter.com/GAtqzr0VIV
>
> — Google DeepMind (@GoogleDeepMind) 19 de maio de 2026

Chamando o Omni de “um passo em direção à inteligência artificial geral,” Hassabis afirmou que o Google passou o último ano expandindo o Gemini para “um modelo de IA de mundo que pode entender e simular o mundo.”
A implementação do Omni pelo Google baseia-se na popularidade do Nano Banana, o modelo de edição de imagens por IA anterior da empresa que ajudou a impulsionar o Gemini ao topo da App Store da Apple em setembro passado. O Nano Banana tornou-se amplamente utilizado para geração de memes e edição de imagens conversacionais, ajudando temporariamente o Gemini a superar o ChatGPT em downloads de aplicativos e interesse na pesquisa do Google pela primeira vez desde o lançamento do chatbot da OpenAI em 2022.

Na comparação feita pelo Decrypt no início deste mês, o Nano Banana 2 superou o GPT Image 2 da OpenAI em testes de ilustração de anime e composição espacial, enquanto o modelo da OpenAI teve melhor desempenho em realismo fotográfico e renderização de texto. O Google agora parece estar estendendo muitas dessas funcionalidades de edição para vídeo através do Gemini Omni.

Durante a apresentação, o Google demonstrou o Omni gerando um vídeo educativo em estilo claymation explicando o dobramento de proteínas. A empresa também mostrou ferramentas de edição conversacional que modificaram um vídeo selfie adicionando novos elementos visuais e alterando o ambiente ao redor.
O Google afirma que o Omni consegue manter os mesmos personagens, fundos e movimentos consistentes mesmo após os usuários fazerem alterações em um vídeo—algo com que muitos modelos de vídeo por IA têm dificuldades. A empresa também diz que o Omni usa as habilidades de raciocínio do Gemini para entender instruções mais amplas, permitindo que os usuários descrevam o tipo de cena que desejam sem precisar explicar cada detalhe manualmente.
A empresa também apresentou o Flow Agent, um assistente de IA integrado ao Google Flow que pode gerar ideias para cenas, organizar ativos, recomendar mudanças na trama e editar projetos em lote.
Atualizações adicionais incluem o Flow Tools, que permite aos usuários criar fluxos de edição personalizados usando comandos em linguagem natural, sem necessidade de experiência em codificação.
Hassabis afirmou que o Google está começando com a geração de vídeos, mas planeja expandir o acesso ao Omni, descrevendo-o como a visão de longo prazo por trás do design multimodal do Gemini.
“Esse sempre foi nosso objetivo com o Gemini, e por isso o construímos para ser multimodal desde o início,” disse ele.

O Google não respondeu imediatamente a um pedido de comentário feito pelo Decrypt.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado