Acusada pela comunidade de sabotagem encoberta, a Anthropic pede desculpas e cancela a restrição secreta de rebaixamento do Claude

De acordo com o monitoramento Beating, a Anthropic anunciou uma atualização na estratégia de segurança do desenvolvimento do seu novo modelo Claude Fable 5, cancelando a limitação de degradação silenciosa de desempenho. O mecanismo de degradação silenciosa foi acusado pela comunidade de ser uma "dano oculto", levando a uma forte reação da comunidade de pesquisa em inteligência artificial.

De acordo com os termos de serviço da Anthropic, os usuários não podem usar o Claude para treinar modelos concorrentes. A Anthropic planeja reduzir o desempenho do Claude Fable 5 sem aviso prévio para contas suspeitas de treinar modelos concorrentes. Pesquisadores de inteligência artificial alertaram que a redução silenciosa de desempenho pode interferir nos testes de agências de avaliação de segurança de terceiros, dificultando a colaboração na comunidade de código aberto na área de segurança de IA.

Diante das dúvidas da comunidade, a Anthropic publicou uma declaração de desculpas pública, reconhecendo que tomou uma decisão incorreta na ponderação das estratégias de segurança, e ajustará o desenvolvimento de mecanismos de proteção para alertas públicos. Se o sistema detectar que o usuário tenta construir uma IA de alta capacidade, a solicitação será explicitamente rejeitada ou o usuário será redirecionado para um modelo de menor capacidade. A Anthropic alertou que, como os mecanismos de proteção públicos são mais fáceis de serem contornados, no futuro a gama de filtros de segurança será ampliada, o que pode levar à rejeição de algumas solicitações normais e inofensivas.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário