GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como “Spud” e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic (77.8%).

Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhando o ritmo da fronteira, mas não liderando,” posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que “Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade,” comentando que “Claude venceu o modelo chinês na própria língua.”

O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por “custo por tarefa” em vez de “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por um milhão de tokens), mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Executivos de Tecnologia do Vale do Silício Aumentam Detalhes de Segurança Após Ataques Recentes a Altman e Outros

Mensagem do Gate News, 27 de abril — Após ataques recentes a líderes proeminentes da tecnologia, incluindo a residência de São Francisco de Sam Altman e o CEO da UnitedHealthcare, executivos do Vale do Silício estão aprimorando significativamente as medidas de segurança pessoal. O aumento do sentimento anti-AI, combinado com esses incidentes de alto perfil, fez com que esses

GateNews8m atrás

Kimi K3 da Moonshot AI previsto para lançamento no 3T de 2026 com 2,5T+ de parâmetros e contexto de 1M de tokens em testes

Mensagem da Gate News, 27 de abril — A Moonshot AI planeja lançar o Kimi K3 no 1M de 2026 (julho-setembro), de acordo com reportagens. O modelo terá mais de 2,5 trilhões de parâmetros, e testes internos revelaram capacidade de janela de contexto acima de 1 milhão de tokens. No entanto, se o contexto de 1M estará ou não disponível no

GateNews48m atrás

Greg Brockman da OpenAI: IA mudando de conversa para execução autônoma de tarefas

Mensagem do Gate News, 27 de abril — Greg Brockman, presidente e cofundador da OpenAI, diz que a próxima onda de inteligência artificial vai tirar os usuários de conversas com bots de IA e levá-los a atribuir tarefas no mundo real. Essa mudança exige que as empresas repensem fluxos de trabalho operacionais e estabeleçam novos protocolos para segurança, gerenciamento e custos para se

GateNews1h atrás

B.AI Atualiza a Infraestrutura, Lança Principais Recursos de Skills

Mensagem do Gate News, 27 de abril — A B.AI anunciou vários avanços de produtos e do ecossistema nesta semana. A página de pouso do BAIclaw recebeu uma reformulação completa de visual e de interação, com suporte multilíngue do site expandido para 10 idiomas, fortalecendo sua usabilidade global. Na frente da infraestrutura

GateNews1h atrás

Pequim exige revogação do bloqueio de negociações! A Meta investe US$ 2 bilhões para adquirir a nova empresa de IA da China, a Manus, e o negócio não se concretiza

A Comissão Nacional de Desenvolvimento e Reforma da China (hoje, 27 de abril) divulgou oficialmente um anúncio, por meio do escritório do “mecanismo de trabalho para a revisão de segurança de investimentos estrangeiros”, que “em conformidade com a lei e de acordo com as regras, tomou a decisão de proibir investimentos na aquisição do projeto Manus por capital estrangeiro, e exige que as partes envolvidas cancelem a referida transação de aquisição”. Este é um caso raro, desde a implementação das “Medidas para a Revisão da Segurança de Investimentos Estrangeiros”, em que foi utilizada a mais alta intensidade de tratamento “proibindo investimentos” e exigindo o cancelamento de uma transação já realizada. A Meta investe 2 bilhões de dólares, comprando o aplicativo de IA mais barato Voltemos no tempo para 29 de dezembro de 2025. A Meta anunciou a aquisição de uma startup chinesa de agentes de IA chamada Manus; as estimativas do mercado apontavam que o preço ficaria entre 2 e 3 bilhões de dólares. Manus é uma IA de uso geral desenvolvida pela Pequena Efeito Borboleta em Pequim; depois de ser lançada em 6 de março de 2025, devido ao desempenho notável no benchmark GAIA, em uma noite

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários