根據 Beating,伊利諾伊大學的博士生 Dylan Zhang 所進行的一項近期「代理(Agent)記憶」研究發現,反覆摘要化模型的經驗可能會降低表現,而不是提升它。在 ARC-AGI 任務中,GPT-5.4 在不使用記憶的情況下,於 19 個問題上達到 100% 準確率;但在基於正確解題軌跡進行多輪記憶壓縮之後,準確率降至 54%。同樣地,在 WebShop 購物任務中,AWM 記憶方法在 8 條專家軌跡時得分為 0.64,但在 128 條軌跡時降至 0.20,並回到基準值。研究指出,這個問題源於過度摘要:每一步抽象化都會流失特定細節,並將任務專屬的規則合併成通用指引,最終導致模型表現惡化。
Related News