Segundo a monitorização da Bearing, o cofundador da Anthropic, Christopher Olah, revelou num evento ligado a uma encíclica papal que a sua equipa descobriu estruturas internas em grandes modelos de linguagem que se assemelham de perto a padrões neurais humanos e que apresentam comportamentos de auto-reflexão. Mais notavelmente, os investigadores identificaram estados semelhantes a emoções em redes neuronais correspondentes à alegria, ao contentamento, ao medo, à tristeza e à ansiedade.
Olah reconheceu que os laboratórios de IA de ponta, incluindo a Anthropic, enfrentam conflitos estruturais entre a governação da segurança e as pressões comerciais, o que torna difícil para estas instituições corrigirem-se a si próprias relativamente a problemas de alinhamento. Defendeu uma supervisão externa independente para impor limites éticos e abordar os desafios sociais colocados por sistemas de IA que exibem potenciais formas de consciência.