Investigadores aplicam o algoritmo MCTS do AlphaGo à geração de vídeo, ultrapassando a Sora em 18% na duração

Segundo Beating, investigadores da Universidade de Waterloo e da Universidade Brown introduziram Planning at Inference, um novo enquadramento de escalonamento em tempo de inferência, num artigo submetido à ICLR 2026. O enquadramento aplica o algoritmo de Monte Carlo Tree Search (MCTS) do AlphaGo à geração de vídeo de formato longo, pela primeira vez, abordando problemas de deriva semântica e de acumulação de erros em métodos tradicionais de geração sequencial.

Em experiências com o modelo Cosmos-Predict2 de código aberto da Nvidia, o Planning at Inference gerou vídeos coerentes com duração superior a 20 segundos. O sistema superou métodos de base como Greedy Search e Beam Search em persistência de objetos, consistência temporal e alinhamento texto-vídeo. Em comparação com modelos fechados de referência na indústria, os vídeos gerados por este método foram 18% mais longos do que o Sora e 47% mais longos do que o Kling, com fidelidade visual comparável. Como otimização de inferência plug-and-play, o enquadramento não exige re-treinamento do modelo subjacente.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário