Theo nhà nghiên cứu Kosta Jordanov tại Lenz Research, năm mô hình AI tiên phong đã bất đồng về 67% trong số 1.000 yêu cầu kiểm chứng sự thật ngoài đời thực được thử nghiệm trong tháng này. Các mô hình—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro kèm Search và Sonar Pro—được yêu cầu phân loại các tuyên bố là đúng, phần lớn là đúng, gây hiểu lầm hoặc sai. Trong 34% trường hợp, mức độ bất đồng là nghiêm trọng, khi một mô hình gọi một tuyên bố là đúng trong khi mô hình khác gán nhãn là sai.
Nghiên cứu đo mức độ thống nhất bằng hệ số Krippendorff’s alpha, đạt 0,639 trên thang điểm mà 1,0 là thống nhất hoàn hảo; nhìn chung, các nhà nghiên cứu xem điểm dưới 0,8 là yếu. Chỉ có 328 trong số 1.000 tuyên bố đạt mức đồng thuận hoàn toàn và đáng chú ý là không có tuyên bố nào nhận phán quyết “phần lớn là đúng” với sự đồng thuận hoàn toàn. Các nhà nghiên cứu sử dụng các tuyên bố do người dùng thực gửi lên nền tảng kiểm chứng sự thật của Lenz thay vì các bộ chuẩn kiểm tra tiêu chuẩn, qua đó giảm khả năng các mô hình “bắt chước” theo dữ liệu huấn luyện.