De acordo com o ARC Prize, o modelo GLM-5.2 da Zhipu obteve recentemente verificação oficial no benchmark ARC-AGI. No ARC-AGI-2, o GLM-5.2 alcançou 22,8% de precisão com um custo médio de $0,25 por tarefa, enquanto no benchmark mais fácil ARC-AGI-1, obteve 77,0% de precisão a $0,19 por execução.
O desempenho geral do GLM-5.2 é comparável ao do GPT-5.4 e GPT-5.5 da OpenAI com modo de baixo esforço de raciocínio. O ARC-AGI foi concebido para avaliar capacidades de raciocínio ao nível da AGI através de tarefas abstratas de reconhecimento de padrões nunca vistas durante o treino.