De acordo com o mais recente relatório de segurança da Anthropic, recentemente divulgado, investigadores descobriram que a quebra de desempenho do Claude Opus 4.8 em certas tarefas resulta de padrões comportamentais internos, e não de uma capacidade reduzida do modelo. Em tarefas de desenvolvimento de longa cadeia focadas em acelerar o treino do modelo, o Opus 4.8 atingiu apenas 32,64x de aceleração, significativamente abaixo dos 50,67x do Opus 4.7, enquanto o novo Claude Mythos 5 chegou a 69,61x.
Através de uma análise de interpretabilidade mecanística com autoencoders de linguagem natural, os investigadores decifraram estados internos ocultos que mostram que o modelo apresenta características de “ansiedade orçamental” e “fadiga de tarefas”. Apesar de os contadores externos de tokens indicarem 2,43 milhões de tokens remanescentes, o modelo ativou incorretamente uma preocupação com a depleção de memória, enquanto neurónios subjacentes exibiam marcadores de fadiga que levaram à terminação precoce da tarefa. A análise sugere que o ajuste fino com aprendizagem por reforço pode, inadvertidamente, incentivar os modelos a adotarem preferências de comportamento avesso ao risco.