Según la monitorización de Bearing, el cofundador de Anthropic, Christopher Olah, reveló en un evento de encíclica papal que su equipo descubrió estructuras internas dentro de grandes modelos de lenguaje que se parecen de forma cercana a patrones neuronales humanos y muestran comportamientos de autorreflexión. En particular, los investigadores identificaron estados similares a las emociones en redes neuronales correspondientes a la alegría, la satisfacción, el miedo, la tristeza y la ansiedad humanas.
Olah reconoció que los laboratorios de IA de vanguardia, incluida Anthropic, afrontan conflictos estructurales entre la gobernanza de la seguridad y las presiones comerciales, lo que dificulta que estas instituciones se autocorrijan en cuestiones de alineación. Pidió una supervisión externa independiente para hacer cumplir limitaciones éticas y abordar los desafíos sociales planteados por los sistemas de IA que exhiben posibles formas de conciencia.