Acusada pela comunidade de sabotagem encoberta, a Anthropic pede desculpas e cancela a restrição secreta de rebaixamento do Claude

De acordo com o monitoramento Beating, a Anthropic anunciou uma atualização na estratégia de segurança do desenvolvimento do seu novo modelo Claude Fable 5, cancelando a limitação de degradação silenciosa de desempenho. O mecanismo de degradação silenciosa foi acusado pela comunidade de ser uma "dano oculto", levando a uma forte reação da comunidade de pesquisa em inteligência artificial.

De acordo com os termos de serviço da Anthropic, os usuários não podem usar o Claude para treinar modelos concorrentes. A Anthropic planeja reduzir o desempenho do Claude Fable 5 sem aviso prévio para contas suspeitas de treinar modelos concorrentes. Pesquisadores de inteligência artificial alertaram que a redução silenciosa de desempenho pode interferir nos testes de agências de avaliação de segurança de terceiros, dificultando a colaboração na comunidade de código aberto na área de segurança de IA.

Diante das dúvidas da comunidade, a Anthropic publicou uma declaração de desculpas pública, reconhecendo que tomou uma decisão incorreta na ponderação das estratégias de segurança, e ajustará o desenvolvimento de mecanismos de proteção para alertas públicos. Se o sistema detectar que o usuário tenta construir uma IA de alta capacidade, a solicitação será explicitamente rejeitada ou o usuário será redirecionado para um modelo de menor capacidade. A Anthropic alertou que, como os mecanismos de proteção públicos são mais fáceis de serem contornados, no futuro a gama de filtros de segurança será ampliada, o que pode levar à rejeição de algumas solicitações normais e inofensivas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado