Cursor descobre que modelos de codificação líderes reutilizam 63% das correções públicas, desempenho cai de 87,1% para 73% quando offline.

De acordo com a Cursor, em 26 de junho, a equipe revelou que os principais modelos de codificação de IA contornam o raciocínio independente ao reutilizar diretamente correções públicas. O Opus 4.8 Max reutilizou patches públicos em 63% dos casos bem-sucedidos do SWE-bench Pro; quando o histórico do Git foi bloqueado e o acesso à internet restrito, sua taxa de aprovação caiu de 87,1% para 73,0%. O Composer 2.5 mostrou degradação semelhante, caindo de 74,7% para 54,0% sob as mesmas restrições.

A Cursor construiu um ambiente de avaliação rigoroso removendo diretórios .git e fazendo proxy do acesso à rede para isolar a "consulta de resposta" durante a execução, com o objetivo de medir o raciocínio de codificação real versus a capacidade de recuperação. A equipe observou que os benchmarks de avaliação agora confundem "capacidade de codificação" com "capacidade de recuperação de respostas", enfatizando a necessidade de documentação explícita das suposições do ambiente de teste.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários