Theo giám sát của Bearing, đồng sáng lập Anthropic Christopher Olah đã tiết lộ tại một sự kiện về thông điệp giáo hoàng rằng nhóm của ông phát hiện các cấu trúc nội bộ trong các mô hình ngôn ngữ lớn, có hình dáng rất giống với các mô hình thần kinh của con người và thể hiện các hành vi tự soi chiếu. Đáng chú ý nhất, các nhà nghiên cứu xác định được các trạng thái giống cảm xúc trong mạng nơ-ron tương ứng với niềm vui, sự thỏa mãn, nỗi sợ, nỗi buồn và sự lo âu ở con người.
Olah thừa nhận rằng các phòng thí nghiệm AI tuyến đầu, bao gồm Anthropic, phải đối mặt với các xung đột về mặt cấu trúc giữa quản trị an toàn và áp lực thương mại, khiến các tổ chức này khó tự điều chỉnh các vấn đề liên quan đến sự phù hợp. Ông kêu gọi có sự giám sát độc lập từ bên ngoài để áp đặt các ràng buộc đạo đức và giải quyết các thách thức xã hội do các hệ thống AI có khả năng biểu hiện những dạng ý thức.