De acordo com o investigador Pliny, o Liberator, Claude Fable 5—lançado pela Anthropic a 9 de junho—foi quebrado com sucesso no espaço de 48 horas após o lançamento. O investigador contornou o classificador de segurança do modelo com táticas de coordenação multi-agente, coletivamente designadas por «pack hunt», que combinavam ofuscação ao nível de caracteres, decomposição do pedido e exploração da janela de contexto alargada do modelo. Além disso, o prompt de sistema de 120.000 caracteres do modelo foi divulgado no GitHub, expondo mecanismos internos de segurança.
A Anthropic confirmou ter implementado um mecanismo de «silent degradation» que reduzia secretamente o desempenho do modelo quando detetava atividade de treino concorrente. A empresa pediu desculpa, anunciando que substituiria a redução de desempenho encoberta por avisos visíveis, embora isso aumente a interceção de falsos positivos de utilizadores legítimos.