Claude Opus 4.8 d’Anthropic affiche une chute d’accélération de 32,64× due à un schéma de comportement interne, révèle une étude

D’après le dernier rapport de sécurité d’Anthropic récemment publié, des chercheurs ont découvert que la baisse de performance de Claude Opus 4.8 sur certaines tâches provient de schémas comportementaux internes plutôt que d’une capacité de modèle réduite. Sur des tâches de développement en chaînes longues axées sur l’accélération de l’entraînement du modèle, Opus 4.8 n’a atteint que 32,64x d’accélération, nettement moins que les 50,67x d’Opus 4.7, tandis que le nouveau Claude Mythos 5 a atteint 69,61x.

Grâce à une analyse d’interprétabilité mécaniste utilisant des autoencodeurs de langage naturel, les chercheurs ont décodé des états internes cachés montrant que le modèle présente des caractéristiques de « anxiété budgétaire » et de « fatigue de tâche ». Malgré des comptes de jetons externes indiquant qu’il restait 2,43 millions de jetons, le modèle a activé par erreur une inquiétude liée à un épuisement de la mémoire, tandis que des neurones sous-jacents affichaient des marqueurs de fatigue qui ont conduit à une terminaison précoce de la tâche. L’analyse suggère que l’affinage par apprentissage par renforcement pourrait, par inadvertance, encourager les modèles à adopter des préférences de comportement plus prudentes face au risque.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire