Según Beating, investigadores de la Universidad de Waterloo y de la Universidad de Brown presentaron Planning at Inference, un nuevo marco de escalado en tiempo de inferencia en un artículo enviado a ICLR 2026. El marco aplica el algoritmo de Monte Carlo Tree Search (MCTS) de AlphaGo a la generación de video de larga duración por primera vez, abordando problemas de deriva semántica y acumulación de errores en los métodos tradicionales de generación secuencial.
En experimentos con el modelo Cosmos-Predict2 de código abierto de Nvidia, Planning at Inference generó videos coherentes de más de 20 segundos. El sistema superó a métodos base como Greedy Search y Beam Search en persistencia de objetos, consistencia temporal y alineación texto-video. En comparación con modelos cerrados líderes en la industria, los videos generados por este método fueron un 18% más largos que Sora y un 47% más largos que Kling, con una fidelidad visual comparable. Como optimización de inferencia plug-and-play, el marco no requiere reentrenar el modelo subyacente.