A precisão do GPT-5.4 cai de 100% para 54% no ARC-AGI após repetidas sínteses de memória

De acordo com a Beating, um estudo recente de memória de agentes, conduzido por Dylan Zhang, estudante de doutorado na University of Illinois, descobriu que resumir repetidamente as experiências do modelo pode piorar o desempenho em vez de melhorá-lo. Em tarefas ARC-AGI, o GPT-5.4 alcançou 100% de acurácia em 19 problemas sem memória, mas, após múltiplas rodadas de compressão de memória com base em trajetórias de solução corretas, a acurácia caiu para 54%. Da mesma forma, em tarefas de compras no WebShop, o método de memória AWM registrou 0,64 com 8 trajetórias de especialistas, mas caiu para 0,20 com 128 trajetórias, retornando ao nível de base. A pesquisa sugere que o problema decorre de excesso de sumarização: cada etapa de abstração perde detalhes específicos e mistura regras específicas da tarefa em orientações genéricas, degradando o desempenho do modelo no fim.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários