Năm mô hình AI Frontier bất đồng về 67% các tuyên bố kiểm chứng trong nghiên cứu mới nhất

Theo nhà nghiên cứu Kosta Jordanov tại Lenz Research, năm mô hình AI tiên phong đã bất đồng về 67% trong số 1.000 yêu cầu kiểm chứng sự thật ngoài đời thực được thử nghiệm trong tháng này. Các mô hình—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro kèm Search và Sonar Pro—được yêu cầu phân loại các tuyên bố là đúng, phần lớn là đúng, gây hiểu lầm hoặc sai. Trong 34% trường hợp, mức độ bất đồng là nghiêm trọng, khi một mô hình gọi một tuyên bố là đúng trong khi mô hình khác gán nhãn là sai.

Nghiên cứu đo mức độ thống nhất bằng hệ số Krippendorff’s alpha, đạt 0,639 trên thang điểm mà 1,0 là thống nhất hoàn hảo; nhìn chung, các nhà nghiên cứu xem điểm dưới 0,8 là yếu. Chỉ có 328 trong số 1.000 tuyên bố đạt mức đồng thuận hoàn toàn và đáng chú ý là không có tuyên bố nào nhận phán quyết “phần lớn là đúng” với sự đồng thuận hoàn toàn. Các nhà nghiên cứu sử dụng các tuyên bố do người dùng thực gửi lên nền tảng kiểm chứng sự thật của Lenz thay vì các bộ chuẩn kiểm tra tiêu chuẩn, qua đó giảm khả năng các mô hình “bắt chước” theo dữ liệu huấn luyện.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
GateUser-84f1f85dvip
· 52phút trước
1000x Vibes 🤑
Trả lời0
GateUser-84f1f85dvip
· 52phút trước
Giữ chặt 💪
Xem bản gốcTrả lời0
GateUser-84f1f85dvip
· 53phút trước
Cuộc tấn công lớn 🐂
Xem bản gốcTrả lời0
GateUser-84f1f85dvip
· 53phút trước
Tinh Nghịch Trong 🚀
Xem bản gốcTrả lời0