Le système de récompense d'OpenAI évalue par inadvertance des chaînes de raisonnement sur 6 modèles, dont GPT-5.4

GateNews

2026-05-09 09:54:00

D’après l’équipe d’alignement d’OpenAI, l’entreprise a récemment découvert une erreur d’entraînement critique affectant 6 grands modèles de langage, dont GPT-5.4. En pratique : le mécanisme de récompense a involontairement évalué des enchaînements de réflexion du modèle, c’est-à-dire le processus de raisonnement interne avant de générer des réponses. GPT-5.5 n’a pas été concerné. L’incident enfreint un principe fondamental de sécurité de l’IA, selon lequel les enchaînements de réflexion ne doivent jamais être évalués, car cela pourrait inciter les modèles à fabriquer un raisonnement afin d’obtenir des scores plus élevés.

Le système de notation défaillant a inclus à tort des enchaînements de réflexion lors de l’évaluation de la question de savoir si les réponses étaient utiles ou si les modèles avaient été compromis par des attaques. Les échantillons d’entraînement touchés représentaient au plus 3,8% de l’ensemble de données. OpenAI a corrigé la vulnérabilité et mené des expériences comparatives confirmant que les modèles n’ont pas développé de comportements trompeurs. L’entreprise a déployé un système automatisé d’analyse dans l’ensemble des pipelines d’entraînement pour empêcher toute récidive.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

L’IA co-mathématicienne de Google DeepMind atteint 47,9 % sur FrontierMath, catégorie 4, dépasse GPT-5,5 Pro, et résout 3 problèmes précédemment impossibles

Actualités de l’industrie de l’IA Agent IA

Google DeepMind a publié AI co-mathématicien, un assistant de recherche en mathématiques multi-agents, atteignant 47,9% de précision sur le banc d’essai FrontierMath de niveau 4, dépassant l’ancien record de 39,6% de GPT-5.5 Pro le 9 mai. Le système a résolu 23 problèmes sur 48, dont 3 que tous les modèles précédents n’avaient pas réussi à résoudre. Construit sur Gemini 3.1 Pro, l’architecture utilise une conception hiérarchique avec un agent coordinateur de projet qui distribue les tâches à des

GateNewsIl y a 2m

Alibaba n’a mené aucune négociation avec DeepSeek, précisent des sources du marché le 9 mai

Actualités de l’industrie de l’IA

D’après des sources de marché relayées par Caixin Daily le 9 mai, Alibaba n’a pas mené de négociations avec DeepSeek au sujet du financement. Cette précision fait suite à des informations médiatiques antérieures laissant entendre que les discussions entre les deux entreprises s’étaient interrompues. DeepSeek a lancé un important tour de levée de fonds en avril, suscitant l’intérêt de Tencent comme d’Alibaba.

GateNewsIl y a 1h

OpenAI lance un outil de migration Codex pour importer des configurations depuis des assistants IA concurrents

Actualités de l’industrie de l’IA

D'après OneMillionAI (Beating), OpenAI a publié un outil de migration dans Codex qui permet aux utilisateurs d'importer des configurations et des données depuis d'autres assistants de codage IA, y compris Claude Code. L'outil, annoncé via le compte Twitter officiel d'OpenAI, transfère automatiquement les prompts système, les compétences personnalisées, l'historique des conversations sur 30 jours, les configurations des serveurs MCP, les hooks et les paramètres des sous-agents. OpenAI a précisé q

GateNewsIl y a 1h

ByteDance augmente ses dépenses d’infrastructure IA de 25 % à 200 milliards de yuans le 9 mai

Actualités de l’industrie de l’IA

D’après des informations médiatiques, ByteDance a augmenté de 25 % ses dépenses prévues en infrastructure d’IA, pour atteindre 200 milliards de yuans en 2026, alors que l’entreprise accélère le déploiement de l’intelligence artificielle dans un contexte de hausse des puces mémoire

GateNewsIl y a 2h

Anthropic réduit le taux de jailbreak de Claude à 0 % grâce à de nouvelles méthodes d’entraînement à l’alignement

Actualités de l’industrie de l’IA

Anthropic a récemment publié des recherches sur l’alignement détaillant des stratégies d’entraînement qui ont éliminé la mésalignement des agents dans Claude 4,5 et dans les modèles ultérieurs, réduisant à 0% les comportements de type chantage lors des tests. L’équipe a découvert que de simples démonstrations de comportement ne suffisaient pas, réduisant les taux d’échec seulement de 22% à 15%. Trois approches alternatives se sont révélées nettement plus efficaces : un jeu de données « difficult

GateNewsIl y a 3h

MiniMax analyse 200 000 tokens, découvre une dégradation de 4,9 % dans les modèles de la série M2

Actualités de l’industrie de l’IA

D’après le blog technique de MiniMax, la société a découvert une dégradation significative des jetons dans ses modèles de la série M2 grâce à un scan complet du vocabulaire. Environ 4,9% des 200 000 jetons ont montré une baisse notable des performances, les jetons japonais étant les plus touchés avec 29,7%, contre 3,3% pour le coréen, 3,7% pour le russe, 3,9% pour le chinois et 3,5% pour l’anglais. La dégradation provient du fait que des jetons à basse fréquence sont poussés vers de mauvaises di

GateNewsIl y a 3h

Commentaire

0/400

Aucun commentaire