Pedi ao GPT Image 2.0 para criar uma tabela de referência do opus 4.7 vs gpt 5.5.


Esse modelo de imagem ficou realmente bom.
GPT-5.5 vence na tabela de classificação principal. Mas olhe mais de perto.
OSWorld 78,7 vs 78,0. GDPval 84,9 vs 80,3. Toolathlon 55,6 vs 54,6 (mais de 5,4, não Opus).
Opus ainda mantém o SWE-Bench Pro, MCP Atlas, GPQA Diamond, HLE sem ferramentas.
OpenAI leva a faixa geral. Anthropic mantém a coroa do código. Na teoria.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar