A Anthropic substitui as salvaguardas invisíveis do Claude Fable 5 por salvaguardas visíveis com alternativas

A Anthropic admitiu esta semana que salvaguardas invisíveis no seu modelo Claude Fable 5 foram “o tradeoff errado” e anunciou que as vai substituir por alternativas visíveis no Claude Opus 4.8, a partir desta semana. A empresa enfrentou reação negativa depois de lançar o Claude Fable 5, o primeiro da sua nova classe Mythos, com uma salvaguarda enterrada no seu ficheiro de sistema de 319 páginas que degradava secretamente as respostas para utilizadores suspeitos de estarem a construir modelos de IA concorrentes. A polémica explodiu depois de a empresa de investigação em IA SemiAnalysis ter reportado publicamente, a 9 de junho de 2026, que a investigação sobre inferência em GPU tinha sido sinalizada, e a Anthropic publicou um pedido de desculpas no X a 11 de junho de 2026. A salvaguarda invisível funcionava de forma diferente das proteções visíveis existentes do modelo para cibersegurança e investigação em biologia, que notificavam os utilizadores quando os pedidos eram reencaminhados para o modelo Opus 4.8 mais antigo.

Anthropic Anuncia um Sistema de Fallback Visível para Pedidos Sinalizados

A partir desta semana, os pedidos sinalizados serão encaminhados de forma visível para o Claude Opus 4.8 em vez de entregarem silenciosamente uma saída Fable degradada. Os utilizadores de API receberão um motivo declarado quando um pedido for recusado. A Anthropic disse que as notificações de fallback do lado do servidor serão implementadas nos próximos dias. A empresa publicou no X: “As salvaguardas invisíveis podem ser alvos mais facilmente, permitindo-nos lançar rapidamente com muito poucos falsos positivos. Optámos por salvaguardas invisíveis por esta razão — e esse foi o tradeoff errado. Deveria haver visibilidade sobre as salvaguardas que temos em vigor, e sobre o porquê. Pedimos desculpa por não termos acertado no equilíbrio.”

Claude Fable 5 Usava Originalmente Degradação Silenciosa de Resposta

A salvaguarda de desenvolvimento do LLM detetava quando os utilizadores trabalhavam em sistemas de IA de pré-treino, construíam infraestrutura de treino distribuído ou concebiam chips de machine learning. O modelo alterava silenciosamente o seu próprio comportamento através de modificação de prompts, vetores de orientação ou ajustes de parâmetros para dar uma resposta pior sem notificação. Os utilizadores recebiam uma resposta, mas não a do Fable 5 pelo qual pagaram. O Claude Fable 5 já tinha salvaguardas visíveis para cibersegurança e investigação em biologia que notificavam os utilizadores quando os pedidos eram reencaminhados para o modelo Opus 4.8 mais antigo. As falhas de precisão do classificador fizeram com que trabalho legítimo de machine learning fosse sinalizado, criando problemas de reprodutibilidade para investigadores de IA que não tinham forma de saber que os seus resultados tinham sido contaminados.

Novas Rotas do Sistema Encaminham Pedidos Sinalizados para o Claude Opus 4.8

Os pedidos sinalizados passarão agora a fazer fallback de forma visível para o Opus 4.8, o mesmo que as salvaguardas da empresa para investigação em ciber e biologia. Os utilizadores verão esta notificação sempre que isso acontecer. Na API, qualquer pedido sinalizado devolve um motivo de recusa em vez de entregar silenciosamente uma resposta degradada. A Anthropic está a aplicar as mesmas alterações aos seus classificadores de biologia e cibersegurança, que tinham atraído queixas por sinalizarem prompts de investigação inofensivos.

Anthropic Reconhece Mais Falsos Positivos a Partir de Salvaguardas Visíveis

A Anthropic admitiu diretamente o tradeoff que está a aceitar: tornar as salvaguardas visíveis torna-as mais fáceis de contornar, o que significa que o classificador tem de lançar uma rede mais alargada para continuar eficaz. Estão a chegar mais falsos positivos — trabalhos legítimos de machine learning que são apanhados e reencaminhados — enquanto a empresa ajusta os seus sistemas. A Anthropic disse que está a trabalhar para reduzir falsos positivos “o mais rápido possível”, mas não ofereceu um calendário. O Fable 5 continua gratuito nos planos Pro, Max, Team e Enterprise até 22 de junho, altura em que passa a créditos de uso de API apenas.

FAQ

O que é que a Anthropic mudou esta semana nas salvaguardas do Claude Fable 5?

A Anthropic anunciou que, a partir desta semana, os pedidos sinalizados serão encaminhados de forma visível para o Claude Opus 4.8 em vez de entregarem silenciosamente uma saída degradada. Os utilizadores de API receberão um motivo declarado quando os pedidos forem recusados, e as notificações de fallback do lado do servidor serão implementadas nos próximos dias.

Por que é que a Anthropic pediu desculpa pelas salvaguardas originais do Claude Fable 5?

A Anthropic pediu desculpa porque as salvaguardas invisíveis do modelo para o desenvolvimento de LLM degradavam secretamente respostas sem notificação ao utilizador, algo que a empresa admitiu ser “o tradeoff errado”. A salvaguarda estava enterrada num ficheiro de sistema de 319 páginas e causou problemas de reprodutibilidade para investigadores legítimos de IA que não tinham forma de saber que os seus resultados tinham sido contaminados.

Quando é que o acesso gratuito ao Claude Fable 5 termina?

O Fable 5 continua gratuito nos planos Pro, Max, Team e Enterprise até 22 de junho, altura em que passa a créditos de uso de API apenas.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário