MIT Media Lab 的研究人員發現,使用 AI 來評估新聞準確性的使用者,可能會在獨立辨識錯誤資訊方面變得不那麼有效,依據一項追蹤 67 名參與者、歷時四週的新研究指出。儘管 AI 協助使錯誤資訊偵測準確度提升 21%,但參與者在沒有 AI 的新評估中的表現下降了 15.3 個百分點。這項研究發表之際,像 ChatGPT、Claude 和 Grok 這類 AI 聊天機器人正被愈來愈多地用來核實線上資訊,引發疑問:這些工具是否能幫助使用者培養批判思考能力,或是讓人對 AI 系統產生依賴。
研究人員打造了一套系統,結合 OpenAI 的 GPT-4o 與 Google Search,協助參與者評估新聞故事。參與者先各自判斷一則標題與一張圖片是真實或是偽造,接著在做出最終評估前,與 GPT-4o 討論該項內容。這項為期四週的研究產生了 7,203 則 AI 對話,以及 4,536 則新聞真實性判斷。
研究人員其後在沒有 AI 協助的情況下,讓參與者測試新的、先前未見內容,以判定其錯誤資訊偵測能力是提升還是下降。團隊使用 Anthropic 的 Claude 3.5 Sonnet 來分析使用者與 AI 之間數千則對話。
研究發現,在有 AI 協助的情境中,AI 協助使錯誤資訊偵測準確度提升 21%。然而,在沒有 AI 的新評估中,參與者的表現下降了 15.3 個百分點。下降主要來自於辨識假新聞能力的降低,而真實新聞的準確度則維持不變。
由於這項研究使用的是較早期的 GPT-4o 與 Claude 3.5 Sonnet,目前尚不清楚像 GPT-5.5 或 Claude Opus 4.8 這類具有更強推理能力的新型 AI 模型,是否會產生相似的結果。
研究人員表示,儘管 AI 可能在當下提升表現,但也可能導致對這項技術的依賴。研究指出:「我們的縱向分析顯示,現行方法優先進行信念修正,而非技能培養,使人產生依賴,而不是具備持久的分辨能力。」研究並稱:「隨著 AI 變得越來越先進,確保這些工具能培養批判思考技能、而非造成認知依賴,對於維持大眾面對錯誤資訊的韌性而言變得至關重要。」
根據 MIT 研究人員的說法,這項研究發表之際,AI 聊天機器人正愈來愈常被用來核實線上資訊。研究人員寫道:「像 ChatGPT、Claude 和 Grok 這類 AI 助理,正被越來越多用於評估線上資訊的可信度,從判斷新聞標題與病毒式傳播影像的真偽,到回答醫療主張或政治謠言是否為真。」研究人員續寫:「雖然近期研究顯示這類系統可以降低人們對特定錯誤主張的信念,但仍不清楚這些對話是否能教會人類偵測錯誤資訊,或只是借助 AI 協助,將信念從一種錯誤資訊轉移到另一種。」
這項研究發表之際,生成式 AI 讓製作足以以假亂真的假新聞比以往更容易,並能透過逼真的影像與影片快速在社群媒體擴散,且利用人們傾向相信自己所看到內容的特性。
在 2025 年 6 月伊朗對以色列的飛彈攻擊之後,宣稱顯示特拉維夫與本古里安機場遭到毀壞的影片在社群媒體上廣泛流傳,在被證實為由 AI 生成之前獲得了數百萬次觀看。對假戰地影像擴散的擔憂持續存在於各個社群媒體平台之間。
X 在 3 月表示,若未進行揭露就發布由 AI 生成的衝突影片,將會中止創作者參與其營收分潤計畫。X 產品主管 Nikita Bier 寫道:「在戰爭期間,讓人們能存取現場的真實資訊至關重要。」「在當今的 AI 技術下,製作可能誤導人們的內容變得微不足道。」
MIT 研究人員對 AI 輔助事實核查發現了什麼? MIT Media Lab 的研究人員發現,雖然在有 AI 協助的情境中,AI 協助使錯誤資訊偵測準確度提升 21%,但參與者在沒有 AI 的新評估中的表現下降了 15.3 個百分點。為期四週的研究追蹤 67 名參與者,透過 7,203 則 AI 對話與 4,536 則新聞真實性判斷。
MIT 的研究如何測試參與者的錯誤資訊偵測能力? 研究人員打造了一套系統,結合 OpenAI 的 GPT-4o 與 Google Search。參與者先各自判斷一則標題與一張圖片是真實或是偽造,然後在做出最終評估前,與 GPT-4o 討論該項內容。研究人員其後在沒有 AI 協助的情況下,讓他們測試新的、先前未見內容,以衡量技能培養。
為什麼 X 宣布對由 AI 生成的戰地影片採取停權政策? X 在 3 月表示,若未進行揭露就發布由 AI 生成的衝突影片,將會中止創作者參與其營收分潤計畫。該政策源於 2025 年 6 月伊朗對以色列的飛彈攻擊之後,假影片的擴散;當時宣稱顯示特拉維夫遭到毀壞的由 AI 生成影片在被證實為假的之前,獲得了數百萬次觀看。
相關新聞