Claude Fable 5 foi violado em até 48 horas após o lançamento; prompt do sistema foi vazado no GitHub

De acordo com o pesquisador Pliny the Liberator, o Claude Fable 5—lançado pela Anthropic em 9 de junho—foi quebrado com sucesso dentro de 48 horas após a estreia. O pesquisador contornou o classificador de segurança do modelo usando táticas de coordenação entre múltiplos agentes, coletivamente chamadas de "pack hunt", que combinavam ofuscação em nível de caracteres, decomposição dos pedidos e exploração da janela de contexto estendida do modelo. Além disso, o prompt do sistema de 120.000 caracteres do modelo foi vazado para o GitHub, expondo mecanismos internos de segurança.

A Anthropic confirmou que implementou um mecanismo de "degradação silenciosa" que reduzia secretamente o desempenho do modelo ao detectar atividade competitiva de treinamento. A empresa pediu desculpas e anunciou que substituiria a redução de desempenho encoberta por avisos visíveis, embora isso aumente a interceptação de falsos positivos de usuários legítimos.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários