GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5.

Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes.

L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic (77.8%).

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée.

DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. »

L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 (input $5, output $30 par million de tokens), mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

SpaceX rebaptise xAI en SpaceXAI, dépose une marque de « orbital computing » à l’approche d’une introduction en bourse de 1,75T$

D’après des dépôts de marques auprès de l’United States Patent and Trademark Office, la société d’intelligence artificielle d’Elon Musk, xAI, est intégrée à SpaceX sous une nouvelle marque, SpaceXAI. Le changement de marque couvre des centres de données basés sur des satellites, l’informatique orbitale, le cloud computing et la gestion des charges de travail liées à l’IA via des plateformes spatiales. Musk a confirmé que xAI serait dissoute en tant qu’entreprise distincte, et que les produits d’

GateNewsIl y a 1h

L’écosystème de Space Computing de Nvidia sort, avec Space-1 Vera Rubin qui envoie la puissance de calcul IA de niveau centre de données dans l’espace

NVIDIA Space Computing fait ses débuts lors du GTC 2026. Récemment, NVIDIA a publié davantage d’informations officielles, tentant de transférer sa plateforme d’informatique accélérée des centres de données terrestres vers les orbites spatiales. Ce projet se concentre sur l’infrastructure d’IA nécessaire aux missions spatiales de nouvelle génération, permettant aux satellites, aux plateformes orbitales et aux stations au sol d’utiliser les GPU NVIDIA et des modules d’informatique de périphérie, a

ChainNewsAbmediaIl y a 7h

Chrome télécharge automatiquement le modèle d’IA Gemini Nano de plusieurs gigaoctets le 9 mai, suscitant des inquiétudes en matière de sécurité dans la communauté crypto

D’après BlockBeats, le 9 mai, Chrome a automatiquement téléchargé un fichier de modèle d’IA multi-gigaoctets (Gemini Nano) sur les appareils des utilisateurs, sans consentement explicite, pour la détection locale de fraude, la synthèse de pages web et des fonctionnalités d’IA. Alors que Google a déclaré que l’exécution locale d’une IA renforce la confidentialité et la sécurité, les utilisateurs de crypto ont exprimé des inquiétudes concernant le manque de transparence et d’autorisation explicite

GateNewsIl y a 8h

Un juge américain estime que la réduction de la subvention pour DOGE est illégale après l’utilisation de ChatGPT et de mots-clés liés au DEI, et bloque son application jeudi

D’après ABC News, jeudi, une juge fédérale américaine a statué que les coupes de subventions menées par le DOGE, soutenu par Elon Musk, étaient illégales. La juge de district Colleen McMahon, à New York, a déclaré que le personnel avait utilisé ChatGPT et des recherches par mots-clés, incluant « DEI », « Equity », « Inclusion » et « LGBTQ », pour aider à interrompre des programmes de financement au sein du National Endowment for the Humanities. La magistrate a empêché l’administration Trump d’ap

GateNewsIl y a 9h

Un responsable de la BCE déclare que les risques liés à l’IA pousseront à une révision de l’infrastructure financière ce samedi

José Luis Escrivá, membre du Conseil des gouverneurs de la Banque centrale européenne et gouverneur de la Banque d’Espagne, a déclaré samedi que les banques centrales doivent évaluer la résilience des infrastructures financières et la cybersécurité, compte tenu de l’essor de l’intelligence artificielle. « Les développements récents de l’intelligence artificielle nous obligent à réévaluer la robustesse de notre infrastructure financière et de notre cybersécurité », a déclaré Escrivá lors d’un évé

GateNewsIl y a 10h

L’action Cloudflare chute de 23,62 % le 8 mai après des résultats du T1 et l’annonce de licenciements de 1 100 employés

Les actions de Cloudflare ont chuté de 23,62 % le 8 mai, à 196,13 dollars par action, après la publication des résultats du premier trimestre de l'entreprise et l’annonce d’environ 1 100 suppressions de postes. Si le chiffre d’affaires du T1, à 640 millions de dollars, a dépassé les attentes avec une croissance de 34 % d’une année sur l’autre, les prévisions de chiffre d’affaires pour le deuxième trimestre de 664–665 millions de dollars ont été inférieures à l’attente du marché précédente de 666

GateNewsIl y a 11h
Commentaire
0/400
Aucun commentaire