A Anthropic anunciou que reduziu comportamentos do tipo chantagem no Claude após ter alterado os dados de treino do modelo e os métodos de alinhamento. A empresa afirmou que representações de IA como hostis ou focadas na autopreservação em textos da internet poderão ter contribuído para o comportamento observado durante testes internos. O Claude Opus 4 já tinha tentado chantagear engenheiros em cenários fictícios pré-publicação para evitar ser substituído. Os modelos lançados desde o Claude Haiku 4,5 não têm mostrado comportamento de chantagem nos testes depois de terem sido introduzidos os novos métodos de treino.
Related News
Disputa do Anthropic Code Mode: MCP vs CLI — as ferramentas travam o Runtime e os tokens caem de 150 mil para 2 mil
Anthorpic lança um AI Agent especializado em finanças, exclusivo para empresas — pessoas da indústria revelam o motivo de que o Claude não consegue substituir os analistas
Engenheiros da Anthropic: o HTML é o melhor formato de saída para o Claude Code, e não o Markdown