A precisão do GPT-5.4 cai de 100% para 54% no ARC-AGI após repetida sumarização de memória

De acordo com Beating, um estudo recente sobre memória de agentes, de Dylan Zhang, estudante de doutoramento na Universidade de Illinois, concluiu que a sumarização repetida das experiências do modelo pode degradar o desempenho em vez de melhorá-lo. Em tarefas ARC-AGI, o GPT-5.4 obteve 100% de precisão em 19 problemas sem memória, mas após múltiplas rondas de compressão de memória com base em trajectórias de solução correctas, a precisão caiu para 54%. De forma semelhante, em tarefas de compras WebShop, o método de memória AWM obteve 0,64 com 8 trajectórias de especialistas, mas desceu para 0,20 com 128 trajectórias, voltando ao nível de referência. A investigação sugere que o problema tem origem na sobre-sumarização: cada etapa de abstracção faz perder detalhes específicos e funde regras específicas da tarefa em orientações genéricas, degradando assim o desempenho do modelo.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário