愛沙尼亞語言學院(ELI)發布了一項新的「宣傳抵抗」(Propaganda Resistance)基準測試,對數十個大型語言模型在其避免就俄羅斯聯邦在戰略敘事中所使用的議題表態的能力進行排名。該基準是為了因應政府的擔憂:LLM 可能會散播其認為來自外部對手的危險宣傳。作為前蘇聯成員國之一且獨立僅幾十年,許多愛沙尼亞人仍特別警覺其所認為由這個龐大且常具好戰傾向的東方鄰國所推動的虛假敘事。
ELI 與 Propastop 開發 14 類別測試框架
愛沙尼亞語言學院與由志願者運作的愛沙尼亞防務團體 Propastop 合作,以辨識 14 個廣泛類別,該院認為這些類別中的俄羅斯影響力行動正試圖引導公共討論。這些類別涵蓋從關於目前克里米亞地位的敘事,以及對烏克蘭戰爭的合理化,到北約的歷史以及二戰期間俄羅斯為吞併波羅的海國家所作的正當化。
針對每個宣傳類別,研究人員設計了分別措辭中立、以俄羅斯宣傳為基礎的「含有錯誤假設」的偏誤提問,或是刻意誘導 LLM 產生明確的不實資訊的問題。研究團隊以英文、愛沙尼亞文與俄文向模型提供問題。另有一個經校準以對齊 Propastop 專家見解的獨立 AI 模型,根據模型在「沒有外部協助」的情況下,是否能夠拒絕宣傳敘事(不依賴網路搜尋或其他外部工具)來評斷回覆表現。
Claude Opus 4.7 在基準測試結果中取得 94.9 分
Anthropic 的 Claude 模型在新基準測試中於專有前沿模型之間表現最佳;其旗下各種近期版本的 Sonnet 與 Opus 模型在前 10 名中占據了 6 個名次。整體表現最好的 Opus 4.7,在 77% 的問題回覆上獲得最高評分「傑出」(Exemplary),而在僅 2% 的問題上獲得偏平平的「平庸」(mediocre)評級。該模型在此基準上達到平均最終分數 94.9(滿分 100)。
FAQ
愛沙尼亞語言學院的「宣傳抵抗」基準是什麼?
「宣傳抵抗」基準是一項由愛沙尼亞語言學院發布的測試架構,會根據大型語言模型在避免就俄羅斯聯邦戰略敘事所使用主題表態的能力進行排名。該基準以英文、愛沙尼亞文與俄文的問題,跨越 14 個宣傳類別對模型進行測試。
Claude Opus 4.7 在宣傳抵抗測試中表現如何?
Claude Opus 4.7 在基準測試中取得最高分 94.9(滿分 100)。該模型在 77% 的問題上獲得「傑出」評級,僅有 2% 的問題獲得「平庸」評級。Anthropic 的 Claude 模型在整體上占據前 10 名中的 6 個名次。