根據 Lenz Research 的研究員 Kosta Jordanov,本月測試的 1,000 則真實世界事實查核主張中,5 個前沿 AI 模型在 67% 的主張上持不同意見。這些模型——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、帶有 Search 的 Gemini 3 Pro,以及 Sonar Pro——被要求將主張分類為正確、主要正確、誤導,或錯誤。在 34% 的案例中,分歧相當嚴重:一個模型將某項主張判定為正確,而另一個模型則標註為錯誤。
該研究使用 Krippendorff's alpha 量化一致性,分數為 0.639;此量表中 1.0 代表完全一致。研究人員普遍認為低於 0.8 的分數偏弱。僅有 1,000 則主張中的 328 則出現一致同意;而且值得注意的是,沒有任何一則主張獲得一致的「主要正確」裁定。研究人員採用由真實使用者提交到 Lenz 事實查核平台的主張,而非標準基準測試,從而降低了模型對訓練資料進行模式匹配的可能性。