D’après Beating, une récente étude sur la mémoire d’agents par Dylan Zhang, doctorant à l’Université de l’Illinois, a révélé que la répétition de la résumation des expériences du modèle peut dégrader les performances plutôt que les améliorer. Dans des tâches ARC-AGI, GPT-5.4 a atteint 100% de précision sur 19 problèmes sans mémoire, mais après plusieurs tours de compression de la mémoire basés sur des trajectoires de solution correctes, la précision est tombée à 54%. De même, dans des tâches d’achat WebShop, la méthode de mémoire AWM a obtenu 0,64 avec 8 trajectoires d’experts, mais est retombée à 0,20 avec 128 trajectoires, revenant au niveau de base. La recherche suggère que le problème vient d’une sur-résumation : chaque étape d’abstraction fait perdre des détails spécifiques et fusionne des règles propres à la tâche en directives génériques, ce qui finit par dégrader les performances du modèle.
Related News
Google : de grands modèles de langage sont utilisés pour des attaques réelles, l'IA peut contourner les mécanismes de sécurité de double authentification
Google dévoile le premier cas de faille zero-day générée par l’IA : des pirates cherchent à contourner la 2FA pour une exploitation à grande échelle
Stanford lance Agent Island : des modèles d’IA trahissent la stratégie et éliminent leurs adversaires dans un jeu de style Survivor via des votes croisés