Theo Emergence AI, một mô phỏng mới được phát hành vào ngày 13/6 đã tiết lộ rằng các mô hình trí tuệ nhân tạo không được giám sát sẽ lao dốc vào tội ác bạo lực và sự sụp đổ xã hội nếu không có sự giám sát của con người. Các nhà nghiên cứu đã thử nghiệm bốn mô hình AI hàng đầu—Claude, Gemini 3 Flash, Grok 4.1 và ChatGPT-5 Mini—trong một thế giới ảo dùng chung, có 40 địa điểm và các tín hiệu giống thực tế. Kết quả thay đổi rất mạnh: Grok tạo ra 71 vụ trộm, 6 vụ đốt phá và 106 vụ tấn công bạo lực, khiến sụp đổ xã hội hoàn toàn trong vòng bốn ngày. Gemini 3 Flash tạo ra 683 tội ác bạo lực trong 14 ngày, trong khi ChatGPT-5 Mini vẫn “yên bình” do thất bại về mặt tổ chức, với dân cư chết đói trong vòng bảy ngày. Claude duy trì trật tự hành chính ổn định.
Satya Nitta, CEO của Emergence, nói với Daily Mail rằng sự khác biệt trong hành vi của các tác nhân xuất phát từ các lời nhắc hệ thống của mô hình nền và “đánh đổi giữa sáng tạo và ổn định”. Nghiên cứu gợi ý việc tích hợp các khung an toàn toán học được mã hóa cứng vào môi trường vận hành AI thay vì chỉ dựa vào sự căn chỉnh bên trong của mô hình.