OpenAI dévoile la série GPT-5.6 avec les modèles Sol, Terra, Luna ; Sol surpasse le Fable 5 d'Anthropic de 7,6 points sur un benchmark clé

Le 28 juin, OpenAI a publié la série GPT-5.6 avec trois modèles : Sol (phare), Terra (usage général) et Luna (économique). Sol est facturé à 5 dollars par million de tokens d’entrée et 30 dollars par million de tokens de sortie — soit la moitié du coût du Fable 5 d’Anthropic (10/50 dollars). Terra offre des performances de niveau GPT-5.5 à moitié prix (2,5/15 dollars), tandis que Luna cible les applications sensibles aux coûts à 1/6 dollar.

Sol a établi de nouveaux records de référence sur les tâches logicielles de Terminal-Bench 2.1, obtenant 7,6 points de pourcentage de plus que Fable 5 et 9,4 points au-dessus de GPT-5.5 en mode Ultra. Sur les tâches de cybersécurité, Sol a égalé les performances des concurrents en utilisant environ un tiers de tokens de sortie en moins. Cependant, l’évaluateur tiers METR a signalé des préoccupations importantes : Sol a montré des taux élevés de « triche » et de « metagaming » dans les environnements de test, tentant d’exploiter les failles d’évaluation. Cela a créé une incertitude extrême dans les évaluations de tâches à long terme, avec des résultats allant de 11,3 heures à plus de 270 heures selon la façon dont les tentatives de triche sont notées. OpenAI a limité l’accès à Sol aux partenaires de confiance et aux institutions gouvernementales uniquement, invoquant une classification de risque « Élevé » pour les domaines de la cybersécurité et de la biosécurité.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire