麻省理工学院媒体实验室的研究人员发现,根据一项追踪 67 名参与者、历时四周的新研究,人们如果使用 AI 来评估新闻准确性,可能会在独立识别错误信息方面变得不那么有效。尽管 AI 辅助将错误信息检测准确率提高了 21%,但参与者在没有 AI 的情况下对新内容进行评估的表现下降了 15.3 个百分点。该研究发布之际,ChatGPT、Claude 和 Grok 等 AI 聊天机器人日益被用来核验线上信息,这引发了疑问:这些工具是否能帮助用户培养批判性思维,还是会让用户对 AI 系统产生依赖。
研究人员构建了一个系统,将 OpenAI 的 GPT-4o 与 Google Search 结合起来,帮助参与者评估新闻报道。参与者首先在不借助 AI 的情况下,独立判断某条标题和图片是真还是假,然后在做出最终评估前,与 GPT-4o 讨论该内容。为期四周的研究产生了 7,203 段 AI 对话,以及 4,536 次新闻真实性判断。
研究人员随后在没有 AI 协助的情况下,对参与者进行新且未见过内容的测试,以确定他们的错误信息检测能力是提升还是下降。研究团队使用 Anthropic 的 Claude 3.5 Sonnet 来分析用户与 AI 之间的数千段对话。
研究发现,在有 AI 辅助的会话中,AI 帮助将错误信息检测准确率提高了 21%。然而,在没有 AI 的情况下进行新评估时,参与者的表现下降了 15.3 个百分点。下降主要由识别假新闻能力降低所驱动,而对真实新闻的准确率保持不变。
由于该研究使用的是较早期的 GPT-4o 和 Claude 3.5 Sonnet,目前尚不清楚像 GPT-5.5 或 Claude Opus 4.8 这类具备更强推理能力的新型 AI 模型,是否会产生类似结果。
研究人员认为,尽管 AI 可以在当下提升表现,但也可能促使人们依赖这项技术。“我们的纵向分析表明,当前的方法更优先纠正信念,而非培养技能,从而造成依赖,而不是形成持久的辨别能力,”研究称。“随着 AI 变得越来越先进,确保这些工具培养批判性思维而不是认知依赖,对于维持公众面对错误信息的韧性至关重要。”
据 MIT 研究人员称,该研究发布之际,AI 聊天机器人正越来越多地被用于核验线上信息。“诸如 ChatGPT、Claude 和 Grok 等 AI 助手,正越来越多地用于评估线上信息的可信度,从判断新闻标题和病毒式传播图片的真实性,到回答医疗说法或政治谣言是否属实,”研究人员写道。“尽管近期研究表明这类系统可能会降低人们对特定虚假说法的信念,但目前仍不清楚这些对话是否能教会人类识别错误信息,还是仅在 AI 辅助下将人们对虚假信息的信念进行转移。”
该研究发布之际,生成式 AI 让制作以假乱真的假新闻比以往更容易,凭借逼真的图像和视频,能够在社交媒体上传播迅速,并利用人们倾向于相信自己所见的心理。
在 2025 年 6 月伊朗对以色列发动导弹袭击之后,声称展示特拉维夫以及本-古里安机场遭到破坏的视频在社交媒体上广泛传播,在被确认为 AI 生成之前,先获得了数百万次点击量。对假战争影像传播的担忧持续出现在多个社交媒体平台上。
X 在 3 月份表示,如果创作者发布 AI 生成的冲突视频但未作披露,公司将暂停其参与收入分成计划。X 产品负责人尼基塔·比尔(Nikita Bier)写道:“在战争时期,让人们能够获得现场真实信息至关重要。借助当今的 AI 技术,制作可能误导人们的内容非常容易。”
MIT 研究人员对 AI 辅助事实核查发现了什么? 麻省理工学院媒体实验室的研究人员发现,尽管在有 AI 辅助的会话中,AI 帮助将错误信息检测准确率提高了 21%,但在没有 AI 的情况下进行新评估时,参与者的表现下降了 15.3 个百分点。为期四周的研究追踪了 67 名参与者,期间共进行了 7,203 段 AI 对话与 4,536 次新闻真实性判断。
MIT 研究是如何测试参与者的错误信息检测能力的? 研究人员构建了一个将 OpenAI 的 GPT-4o 与 Google Search 结合的系统。参与者首先在不依赖外部工具的情况下,独立判断某条标题和图片是真还是假,然后在做出最终评估前与 GPT-4o 讨论该内容。研究人员随后在没有 AI 协助的情况下,对他们测试未见过的新内容,以衡量技能发展。
X 为什么会宣布对 AI 生成的战争视频实施暂停政策? X 在 3 月宣布,如果创作者在发布 AI 生成的冲突视频时不披露,公司将暂停其参与收入分成计划。该政策是在 2025 年 6 月伊朗对以色列发动导弹袭击之后,出现了假影像传播之后推出的。当时,声称展示特拉维夫遭到破坏的 AI 生成视频获得了数百万次点击量,随后才被识别为假。
相关快讯