Пять передовых моделей Frontier AI расходятся во мнениях по 67% заявлений для фактчекинга, показало исследование

Исследование, опубликованное в этом месяце исследователем Костой Джордановым из Lenz Research, показало, что пять передовых моделей ИИ не совпали по 67% из 1 000 проверок реальных фактов: разногласия возникали в 67% случаев, при этом единогласное согласие отмечалось лишь по 328 утверждениям. Исследование протестировало GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro с Search и Sonar Pro на утверждениях, которые были поданы реальными пользователями на платформу фактчекинга. Модели получили оценку альфы Криппендорфа 0,639, что ниже порога 0,8, который исследователи обычно считают надежным. Разногласия возникали, несмотря на то, что все модели оценивали одинаковые утверждения с использованием той же четырехуровневой системы: true, mostly true, misleading или false. Результаты подчеркивают опасения по надежности, поскольку люди все чаще используют ИИ-системы для проверки фактов.

Методология исследования: использовались утверждения, поданные реальными пользователями

Исследование дало пяти моделям ИИ те же 1 000 проверок реальных фактов, поданные реальными пользователями. Моделям нужно было выбрать один из четырех ярлыков: true, mostly true, misleading или false. В исследовании использовались утверждения, поданные реальными людьми на фактчекинговую платформу Lenz, а не извлеченные из стандартных наборов тестов. «Большинство этих утверждений вряд ли появятся в каком-либо обучающем корпусе с прикрепленной золотой разметкой — нет канонического ответа, с которым можно сверять шаблоны, нет бенчмаркового лидерборда, на который можно опираться», — отмечается в статье.

Пять моделей ИИ не согласились по 672 из 1 000 утверждений

По 672 из 1 000 утверждений хотя бы одна модель выбилась из большинства. В 34% случаев разногласия были серьезными: одна модель называла утверждение true, а другая — false. «Это не бенчмарковые элементы с публичными ключами ответов — это утверждения, которые реальные пользователи подали для проверки на фактчекинговую платформу», — говорится в исследовании. «По каждому утверждению может быть корректным только одно решение из четырех категорий, поэтому любое расхождение среди панели означает, что как минимум одно из решений модели не согласуется с этой 4-корзинной разметкой».

Статистическая оценка надежности ниже стандартного порога

Статистическая мера согласия, называемая альфа Криппендорфа, составила 0,639 по шкале, где 1,0 означает идеальное согласие, а 0 — случайную вероятность. Исследование говорит, что это указывает на «существенное, но ограниченное согласие». «Решения моделей структурированы, а не случайны, но недостаточно согласованы, чтобы рассматривать панель как единый взаимозаменяемый судья», — отмечают исследователи. Обычно исследователи считают слабым всё, что ниже 0,8.

Модели демонстрировали сильное расхождение на примерах утверждений

Исследователи привели примеры утверждений, где модели ИИ показали максимальное расхождение, включая: «Активный портфель Всемирного банка в Нигерии составляет более $16,4 миллиарда по состоянию на 2025 год». ChatGPT 5.4 сказал, что это «скорее true», в то время как Gemini 3 Pro назвал это «false», а его «сестринская» модель Gemini 3 Pro + Search оценила это как «misleading».

В другом примере моделям дали утверждение: «Дональд Трамп сказал, что нападение на Иран было отложено по просьбе союзников из Персидского залива». GPT-5.4 сказал, что это false, Claude Opus 4.7 назвал это mostly true, Gemini 3 Pro сказал false, а Gemini 3 Pro + Search оценил это как true.

Единогласие возникало только на фактических крайностях

Когда все пять моделей соглашались — а это происходило лишь по 328 из 1 000 утверждений — они почти никогда не соглашались, что что-то является misleading или mostly true. Лишь четыре утверждения получили единогласное решение «misleading». Ни одного не получило единогласного «mostly true». «Панель сходится на определенных решениях; именно середина шкалы, где все “ломается”», — выяснили исследователи. Единогласие случалось только на крайних значениях: либо утверждение было определенно true, либо определенно false.

Статья аккуратно подчеркивает это: «Большинство передовых моделей — не истина в последней инстанции. Большинство решений иногда бывает неверным; отдельная несогласная модель иногда оказывается права. Мы используем большинство как структурную точку отсчета для измерения разногласий, а не как замену корректности».

FAQ

Что показало исследование Lenz Research об согласованности моделей ИИ при фактчекинге?
Исследование показало, что пять передовых моделей ИИ не совпали по 67% из 1 000 проверок фактов в реальном мире, поданных реальными пользователями. Единогласное согласие возникало только по 328 утверждениям, а модели получили оценку альфы Криппендорфа 0,639, что ниже порога надежности 0,8, который исследователи обычно считают приемлемым.

Как модели ИИ справились с примерным утверждением про портфель Всемирного банка в Нигерии?
ChatGPT 5.4 оценил утверждение «Активный портфель Всемирного банка в Нигерии составляет более $16,4 миллиарда по состоянию на 2025 год» как mostly true, в то время как Gemini 3 Pro назвал его false, а Gemini 3 Pro + Search оценил его как misleading, что демонстрирует серьезное расхождение между моделями по одному и тому же фактическому утверждению.

Почему в исследовании использовались утверждения, поданные реальными пользователями, а не стандартные тестовые наборы?
Исследователи использовали утверждения, поданные реальными людьми на фактчекинговую платформу Lenz, потому что большинство этих утверждений вряд ли появятся в любом обучающем корпусе с прикрепленной золотой разметкой, устраняя возможность того, что модели будут “подгонять” свои ответы под бенчмарковые ключи, и обеспечивая более реалистичную проверку надежности фактчекинга.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев