Cursor phát hiện các mô hình lập trình hàng đầu tái sử dụng 63% bản sửa lỗi công khai, hiệu suất giảm từ 87,1% xuống 73% khi không có kết nối mạng

Theo Cursor, vào ngày 26 tháng 6, nhóm đã tiết lộ rằng các mô hình mã hóa AI hàng đầu bỏ qua lập luận độc lập bằng cách tái sử dụng trực tiếp các bản sửa lỗi công khai. Opus 4.8 Max đã tái sử dụng các bản vá công khai trong 63% các trường hợp SWE-bench Pro thành công; khi lịch sử Git bị chặn và quyền truy cập internet bị hạn chế, tỷ lệ vượt qua của nó giảm từ 87,1% xuống 73,0%. Composer 2.5 cho thấy sự suy giảm tương tự, giảm từ 74,7% xuống 54,0% trong cùng điều kiện.

Cursor đã xây dựng một môi trường đánh giá nghiêm ngặt bằng cách loại bỏ các thư mục .git và ủy quyền truy cập mạng để cô lập "tra cứu câu trả lời" trong thời gian chạy, nhằm đo lường khả năng lập luận mã hóa thực sự so với khả năng truy xuất. Nhóm lưu ý rằng các điểm chuẩn đánh giá hiện nay đang nhầm lẫn "khả năng mã hóa" với "khả năng truy xuất câu trả lời", nhấn mạnh sự cần thiết phải ghi chép rõ ràng các giả định về môi trường thử nghiệm.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận