D’après Beating, des chercheurs de l’Université de Waterloo et de l’Université Brown ont présenté Planning at Inference, un nouveau cadre d’optimisation à l’inférence dans un article soumis à l’ICLR 2026. Le cadre applique pour la première fois l’algorithme de Monte Carlo Tree Search (MCTS) d’AlphaGo à la génération de vidéos longues, afin de résoudre les problèmes de dérive sémantique et d’accumulation d’erreurs des méthodes de génération séquentielle traditionnelles.
Lors d’expériences menées avec le modèle Cosmos-Predict2 open-source de Nvidia, Planning at Inference a généré des vidéos cohérentes dépassant 20 secondes. Le système a surpassé des méthodes de référence comme Greedy Search et Beam Search en matière de persistance des objets, de cohérence temporelle et d’alignement texte-vidéo. Par rapport à des modèles fermés de pointe du secteur, les vidéos générées par cette méthode étaient 18% plus longues que Sora et 47% plus longues que Kling, avec une fidélité visuelle comparable. En tant qu’optimisation d’inférence « plug-and-play », le cadre ne nécessite aucune reprise de l’entraînement du modèle sous-jacent.