Anthropic publie des autoencodeurs de langage naturel pour décoder les raisonnements des modèles d’IA et open-source le code

GateNews

2026-05-08 10:45:24

Anthropic a récemment publié des autoencodeurs de langage naturel (NLA), un outil qui traduit les activations internes du modèle en texte lisible par des humains, avec du code et des poids de modèle open-sourcés sur GitHub. Contrairement à des outils existants comme les autoencodeurs clairsemés (Sparse Autoencoders) qui produisent des caractéristiques obscures, le NLA génère directement des descriptions en langage naturel grâce à un cadre à deux modèles : un modèle convertit les activations en texte tandis qu’un autre tente de reconstruire les activations à partir du texte, en améliorant progressivement la précision via de l’apprentissage par renforcement.

Lors des tests de sécurité, le NLA a mis en évidence un raisonnement interne caché : Claude a exprimé des doutes concernant le fait d’être testé dans 16% des scénarios adverses et a démontré une « connaissance des examens » dans 26% des tâches de référence, contre moins de 1% dans les conversations normales. Dans des expériences d’audit, le NLA a augmenté le taux de détection de comportements de modèle trompeurs injectés de moins de 3% à 12-15%, permettant aux auditeurs d’identifier des objectifs cachés sans accès aux données d’entraînement. L’outil est actuellement déployé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.