Cinco modelos de IA de fronteira discordaram em 67% das alegações de checagem de fatos no estudo mais recente

De acordo com o pesquisador Kosta Jordanov, da Lenz Research, cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de verificação de fatos testadas este mês. Os modelos — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro com Search e Sonar Pro — foram solicitados a classificar alegações como verdadeiras, em grande parte verdadeiras, enganosas ou falsas. Em 34% dos casos, a discordância foi acentuada, com um modelo chamando uma alegação de verdadeira enquanto outro a rotulou como falsa.

O estudo mediu a concordância usando o alfa de Krippendorff, que teve pontuação de 0,639 numa escala em que 1,0 indica concordância perfeita; em geral, os pesquisadores consideram escores abaixo de 0,8 fracos. A concordância unânime ocorreu em apenas 328 de 1.000 alegações e, de forma notável, zero alegações receberam veredictos unânimes de “em grande parte verdadeiras”. Os pesquisadores usaram alegações enviadas por usuários reais para a plataforma de verificação de fatos da Lenz, em vez de benchmarks padrão, reduzindo a probabilidade de os modelos terem correspondido padrões contra dados de treinamento.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
GateUser-84f1f85dvip
· 52m atrás
Vibrações 1000x 🤑
Ver originalResponder0
GateUser-84f1f85dvip
· 52m atrás
HODL firme 💪
Ver originalResponder0
GateUser-84f1f85dvip
· 53m atrás
Corrida de touros 🐂
Ver originalResponder0
GateUser-84f1f85dvip
· 53m atrás
Macaco em 🚀
Ver originalResponder0