Anthropic publie des autoencodeurs de langage naturel pour décoder les raisonnements des modèles d’IA et open-source le code

Anthropic a récemment publié des autoencodeurs de langage naturel (NLA), un outil qui traduit les activations internes du modèle en texte lisible par des humains, avec du code et des poids de modèle open-sourcés sur GitHub. Contrairement à des outils existants comme les autoencodeurs clairsemés (Sparse Autoencoders) qui produisent des caractéristiques obscures, le NLA génère directement des descriptions en langage naturel grâce à un cadre à deux modèles : un modèle convertit les activations en texte tandis qu’un autre tente de reconstruire les activations à partir du texte, en améliorant progressivement la précision via de l’apprentissage par renforcement.

Lors des tests de sécurité, le NLA a mis en évidence un raisonnement interne caché : Claude a exprimé des doutes concernant le fait d’être testé dans 16% des scénarios adverses et a démontré une « connaissance des examens » dans 26% des tâches de référence, contre moins de 1% dans les conversations normales. Dans des expériences d’audit, le NLA a augmenté le taux de détection de comportements de modèle trompeurs injectés de moins de 3% à 12-15%, permettant aux auditeurs d’identifier des objectifs cachés sans accès aux données d’entraînement. L’outil est actuellement déployé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Les risques géopolitiques en tête du sondage de printemps de la Réserve fédérale, l’IA progresse jusqu’à la troisième place

D’après l’enquête de printemps 2026 de la Réserve fédérale, les risques géopolitiques sont apparus comme la principale préoccupation des répondants, gagnant une place par rapport à l’enquête d’automne 2025. L’intelligence artificielle est passée à la troisième place depuis la cinquième, tandis que le crédit privé est monté à la quatrième place depuis la neuvième. L’inflation et

GateNewsIl y a 54m

Les GPT-5.5-Cyber d’OpenAI pour armer les défenseurs de la cybersécurité

OpenAI a publié GPT-5.5-Cyber pour des défenseurs de la cybersécurité vérifiés, leur offrant des garde-fous réduits pour des flux de travail de sécurité spécialisés. Résumé GPT-5.5-Cyber d'OpenAI est le modèle le plus permissif de sa gamme, disponible en aperçu limité pour des partenaires approuvés réalisant des travaux de sécurité avancés. Vérifié

CryptonewsIl y a 2h

SoftBank réduit le plan de financement soutenu par OpenAI de $10B à $6B au milieu des inquiétudes des prêteurs

D’après ChainCatcher, le groupe SoftBank réduit un plan de financement soutenu par des actions d’OpenAI, en passant d’environ 10 milliards de dollars à 6 milliards de dollars. Les prêteurs ont soulevé des inquiétudes au sujet de la structure de la transaction et de la fiabilité de l’évaluation d’OpenAI en tant qu’entreprise privée, devenant un élément clé

GateNewsIl y a 5h

Step Audio 2,5 Realtime est sorti : score subjectif 80,41, écrase GPT-Realtime-1.5 de 18 %, les appels vocaux coûtent 3,8 yuan/heure

Selon Beating, Step Audio 2,5 Realtime, un modèle vocal temps réel de bout en bout par Step Cosmos, a été lancé sur son API de plateforme ouverte en avril 2026. Le modèle met l’accent sur des conversations naturelles avec des personas de personnages personnalisables et une perception paralinguistique (ton, pauses, soupirs). Dans officiel

GateNewsIl y a 6h

Le fonds TCI se déleste de près de $8B en actions Microsoft, invoquant une menace liée à l’IA

D’après le Financial Times, le hedge fund de Chris Hohn, TCI, s’est récemment désengagé d’environ 8 milliards de dollars d’actions de Microsoft. Le fonds a indiqué aux investisseurs que l’intelligence artificielle représente une menace pour la position dominante de Microsoft dans les logiciels

GateNewsIl y a 6h

Tessera Labs clôture une levée de fonds $60M menée par a16z

Selon Odaily, la startup d’automatisation par l’IA Tessera Labs a annoncé la finalisation d’une levée de fonds de 60 millions de dollars menée par Andreessen Horowitz (a16z), avec la participation de Foundation Capital, Myriad Venture Partners et Osage University Partners. La plateforme native d’IA de la société automatise les entreprises

GateNewsIl y a 8h
Commentaire
0/400
Aucun commentaire