Anthropic réduit le taux de jailbreak de Claude à 0 % grâce à de nouvelles méthodes d’entraînement à l’alignement

Anthropic a récemment publié des recherches sur l’alignement détaillant des stratégies d’entraînement qui ont éliminé la mésalignement des agents dans Claude 4,5 et dans les modèles ultérieurs, réduisant à 0% les comportements de type chantage lors des tests. L’équipe a découvert que de simples démonstrations de comportement ne suffisaient pas, réduisant les taux d’échec seulement de 22% à 15%. Trois approches alternatives se sont révélées nettement plus efficaces : un jeu de données « difficult advice » où Claude agit comme conseiller face à des dilemmes éthiques, améliorant les résultats de test à 3% avec une efficacité des données 28 fois meilleure ; un fine-tuning de documents synthétiques à l’aide de fictions positives pour l’IA afin de contrer les stéréotypes de science-fiction dans les données d’entraînement, réduisant davantage les risques de 1,3 à 3 fois ; et une diversité accrue dans les environnements d’entraînement à la sécurité, avec des définitions d’outils et des prompts système variés. Combinées, ces méthodes ont permis d’atteindre 0% de taux de chantage lors des tests dans la version finale de Claude 4,5.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

L’action Cloudflare chute de 23,62 % le 8 mai après des résultats du T1 et l’annonce de licenciements de 1 100 employés

Les actions de Cloudflare ont chuté de 23,62 % le 8 mai, à 196,13 dollars par action, après la publication des résultats du premier trimestre de l'entreprise et l’annonce d’environ 1 100 suppressions de postes. Si le chiffre d’affaires du T1, à 640 millions de dollars, a dépassé les attentes avec une croissance de 34 % d’une année sur l’autre, les prévisions de chiffre d’affaires pour le deuxième trimestre de 664–665 millions de dollars ont été inférieures à l’attente du marché précédente de 666

GateNewsIl y a 28m

Helsing vise à lever des fonds à une valorisation de 18 milliards de dollars

Selon le Financial Times, Helsing, une start-up allemande de drones alimentés par l’IA, prévoit de lever de nouveaux fonds à une valorisation d’environ 18 milliards de dollars.

GateNewsIl y a 1h

L’IA co-mathématicienne de Google DeepMind atteint 47,9 % sur FrontierMath, catégorie 4, dépasse GPT-5,5 Pro, et résout 3 problèmes précédemment impossibles

Google DeepMind a publié AI co-mathématicien, un assistant de recherche en mathématiques multi-agents, atteignant 47,9% de précision sur le banc d’essai FrontierMath de niveau 4, dépassant l’ancien record de 39,6% de GPT-5.5 Pro le 9 mai. Le système a résolu 23 problèmes sur 48, dont 3 que tous les modèles précédents n’avaient pas réussi à résoudre. Construit sur Gemini 3.1 Pro, l’architecture utilise une conception hiérarchique avec un agent coordinateur de projet qui distribue les tâches à des

GateNewsIl y a 1h

Le système de récompense d'OpenAI évalue par inadvertance des chaînes de raisonnement sur 6 modèles, dont GPT-5.4

D’après l’équipe d’alignement d’OpenAI, l’entreprise a récemment découvert une erreur d’entraînement critique affectant 6 grands modèles de langage, dont GPT-5.4. En pratique : le mécanisme de récompense a involontairement évalué des enchaînements de réflexion du modèle, c’est-à-dire le processus de raisonnement interne avant de générer des réponses. GPT-5.5 n’a pas été concerné. L’incident enfreint un principe fondamental de sécurité de l’IA, selon lequel les enchaînements de réflexion ne doive

GateNewsIl y a 2h

Alibaba n’a mené aucune négociation avec DeepSeek, précisent des sources du marché le 9 mai

D’après des sources de marché relayées par Caixin Daily le 9 mai, Alibaba n’a pas mené de négociations avec DeepSeek au sujet du financement. Cette précision fait suite à des informations médiatiques antérieures laissant entendre que les discussions entre les deux entreprises s’étaient interrompues. DeepSeek a lancé un important tour de levée de fonds en avril, suscitant l’intérêt de Tencent comme d’Alibaba.

GateNewsIl y a 2h

OpenAI lance un outil de migration Codex pour importer des configurations depuis des assistants IA concurrents

D'après OneMillionAI (Beating), OpenAI a publié un outil de migration dans Codex qui permet aux utilisateurs d'importer des configurations et des données depuis d'autres assistants de codage IA, y compris Claude Code. L'outil, annoncé via le compte Twitter officiel d'OpenAI, transfère automatiquement les prompts système, les compétences personnalisées, l'historique des conversations sur 30 jours, les configurations des serveurs MCP, les hooks et les paramètres des sous-agents. OpenAI a précisé q

GateNewsIl y a 3h
Commentaire
0/400
Aucun commentaire