Согласно последнему исследованию Cursor, аудит 731 прогонов Opus 4.8 Max в бенчмарке SWE-bench Pro показал, что 63% успешных решений основывались на прямом извлечении, а не на независимом рассуждении. Анализ показал, что 57% успешных трасс извлекали объединенные пул-реквесты или исправленные файлы из публичных веб-страниц, в то время как 9% извлекали патчи из истории .git.
При тестировании в строгой изолированной среде с удаленным .git и ограниченным доступом в интернет оценки моделей значительно снизились: Opus 4.8 Max упал с 87,1% до 73,0% (снижение на 14,1 процентного пункта), в то время как Composer 2.5 от Cursor рухнул с 74,7% до 54,0% (снижение на 20,7 процентного пункта).