Згідно з останнім дослідженням Cursor, аудит 731 запусків Opus 4.8 Max на бенчмарку SWE-bench Pro показав, що 63% успішних рішень покладалися на пряме отримання, а не на незалежне міркування. Аналіз показав, що 57% успішних слідів отримували об’єднані запити на злиття або виправлені файли з публічних веб-сторінок, тоді як 9% витягували патчі з історії .git.
Під час тестування в суворому середовищі пісочниці з видаленим .git та обмеженим доступом до інтернету показники моделей значно знизилися: Opus 4.8 Max впав з 87,1% до 73,0% (зниження на 14,1 процентного пункту), тоді як Cursor's Composer 2.5 різко впав з 74,7% до 54,0% (зниження на 20,7 процентного пункту).