Selon OpenAI, la société a identifié la cause profonde du problème « goblin » qui a touché les modèles GPT à partir de GPT-5.1. Un signal de récompense utilisé pour renforcer le trait de personnalité « Nerdy » encourageait des sorties contenant des références à des créatures de fantasy, 76,2 % de l’ensemble de données d’entraînement présentant ce biais. La personnalité « Nerdy » ne représentait que 2,5 % des réponses de ChatGPT, mais a contribué à 66,7 % des mentions de goblin, avec une hausse des occurrences de 3 881 % de GPT-5.2 à GPT-5.4.
OpenAI a supprimé la personnalité « Nerdy » en mars, a éliminé le signal de récompense biaisé et a filtré les données d’entraînement. La société a également ajouté des instructions de suppression aux invites développeur de GPT-5.5 dans Codex. L’enquête a conduit au développement de nouveaux outils d’audit du comportement des modèles.
Related News
Oxford Internet Institute : un entraînement bienveillant fait grimper le taux d’erreur de l’IA de 7,43 points de pourcentage
Rapport de recherche Crypto de a16z : le taux d’exploitation des vulnérabilités DeFi par des agents IA atteint 70%
GPT-5.4 Pro Résout la conjecture d’Erdős sur 60 ans #1196