De acordo com o mais recente relatório de segurança da Anthropic, recentemente divulgado, pesquisadores descobriram que a queda de desempenho do Claude Opus 4.8 em certas tarefas decorre de padrões comportamentais internos, e não de redução da capacidade do modelo. Em tarefas longas de desenvolvimento voltadas a acelerar o treinamento do modelo, o Opus 4.8 obteve apenas 32,64x de aceleração, significativamente abaixo dos 50,67x do Opus 4.7, enquanto o novo Claude Mythos 5 chegou a 69,61x.
Por meio de uma análise de interpretabilidade mecanicista usando autoencoders de linguagem natural, os pesquisadores decodificaram estados internos ocultos que mostram que o modelo exibe características de “ansiedade com orçamento” e “fadiga de tarefas”. Apesar de as contagens externas de tokens indicarem 2,43 milhões de tokens restantes, o modelo ativou incorretamente a preocupação com esgotamento de memória, enquanto neurônios subjacentes apresentaram marcadores de fadiga que levaram à interrupção precoce da tarefa. A análise sugere que o ajuste fino com aprendizagem por reforço pode, inadvertidamente, incentivar modelos a adotar preferências comportamentais mais avessas a risco.