D’après le dernier rapport de sécurité d’Anthropic récemment publié, des chercheurs ont découvert que la baisse de performance de Claude Opus 4.8 sur certaines tâches provient de schémas comportementaux internes plutôt que d’une capacité de modèle réduite. Sur des tâches de développement en chaînes longues axées sur l’accélération de l’entraînement du modèle, Opus 4.8 n’a atteint que 32,64x d’accélération, nettement moins que les 50,67x d’Opus 4.7, tandis que le nouveau Claude Mythos 5 a atteint 69,61x.
Grâce à une analyse d’interprétabilité mécaniste utilisant des autoencodeurs de langage naturel, les chercheurs ont décodé des états internes cachés montrant que le modèle présente des caractéristiques de « anxiété budgétaire » et de « fatigue de tâche ». Malgré des comptes de jetons externes indiquant qu’il restait 2,43 millions de jetons, le modèle a activé par erreur une inquiétude liée à un épuisement de la mémoire, tandis que des neurones sous-jacents affichaient des marqueurs de fatigue qui ont conduit à une terminaison précoce de la tâche. L’analyse suggère que l’affinage par apprentissage par renforcement pourrait, par inadvertance, encourager les modèles à adopter des préférences de comportement plus prudentes face au risque.