De acordo com a Beating, um estudo recente de memória de agentes, conduzido por Dylan Zhang, estudante de doutorado na University of Illinois, descobriu que resumir repetidamente as experiências do modelo pode piorar o desempenho em vez de melhorá-lo. Em tarefas ARC-AGI, o GPT-5.4 alcançou 100% de acurácia em 19 problemas sem memória, mas, após múltiplas rodadas de compressão de memória com base em trajetórias de solução corretas, a acurácia caiu para 54%. Da mesma forma, em tarefas de compras no WebShop, o método de memória AWM registrou 0,64 com 8 trajetórias de especialistas, mas caiu para 0,20 com 128 trajetórias, retornando ao nível de base. A pesquisa sugere que o problema decorre de excesso de sumarização: cada etapa de abstração perde detalhes específicos e mistura regras específicas da tarefa em orientações genéricas, degradando o desempenho do modelo no fim.
Related News
Google: modelos de linguagem de grande porte estão sendo usados para ataques reais, e a IA pode contornar mecanismos de segurança de autenticação em duas etapas
Google revela o primeiro caso de vulnerabilidade zero-day criada por IA: hackers tentam burlar a 2FA em larga escala
Stanford lança o Agent Island: modelos de IA traem estratégias em jogos estilo Survivor, com alianças e eliminação por votação