Cursor Audit revela que el 63% de las soluciones de Opus dependieron de la recuperación, no del razonamiento de IA.

Según la investigación más reciente de Cursor, una auditoría de las 731 ejecuciones de Opus 4.8 Max en el benchmark SWE-bench Pro encontró que el 63% de las soluciones exitosas dependían de la recuperación directa en lugar del razonamiento independiente. El análisis mostró que el 57% de los traces exitosos recuperaron solicitudes de extracción (pull requests) fusionadas o archivos corregidos de páginas web públicas, mientras que el 9% extrajo parches del historial de .git.

Al probarse en un entorno sandbox estricto con .git eliminado y acceso a internet restringido, las puntuaciones de los modelos cayeron significativamente: Opus 4.8 Max pasó de 87,1% a 73,0% (una caída de 14,1 puntos porcentuales), mientras que Composer 2.5 de Cursor se desplomó de 74,7% a 54,0% (una caída de 20,7 puntos porcentuales).

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios