Los investigadores aplican el algoritmo MCTS de AlphaGo a la generación de video, superando a Sora en un 18% en longitud

Según Beating, investigadores de la Universidad de Waterloo y de la Universidad de Brown presentaron Planning at Inference, un nuevo marco de escalado en tiempo de inferencia en un artículo enviado a ICLR 2026. El marco aplica el algoritmo de Monte Carlo Tree Search (MCTS) de AlphaGo a la generación de video de larga duración por primera vez, abordando problemas de deriva semántica y acumulación de errores en los métodos tradicionales de generación secuencial.

En experimentos con el modelo Cosmos-Predict2 de código abierto de Nvidia, Planning at Inference generó videos coherentes de más de 20 segundos. El sistema superó a métodos base como Greedy Search y Beam Search en persistencia de objetos, consistencia temporal y alineación texto-video. En comparación con modelos cerrados líderes en la industria, los videos generados por este método fueron un 18% más largos que Sora y un 47% más largos que Kling, con una fidelidad visual comparable. Como optimización de inferencia plug-and-play, el marco no requiere reentrenar el modelo subyacente.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios