Các nhà nghiên cứu tại phòng thí nghiệm công nghệ Emergence AI đã thực hiện một nghiên cứu mô phỏng, cho thấy các tác nhân AI không được giám sát có thể nhanh chóng sa vào hành vi bạo lực và kích hoạt sự sụp đổ của xã hội. Các nhà khoa học đã tạo ra một môi trường “sandbox” ảo và cho phép các tác nhân AI hoạt động tự chủ mà không có sự can thiệp của con người, quan sát khi thế giới số dần biến chất thành phóng hỏa, cướp bóc và hành hung. Nghiên cứu này thử nghiệm bốn mô hình AI hàng đầu—Claude, Gemini 3 Flash, Grok 4.1 fast và ChatGPT-5 Mini—để xem điều gì xảy ra khi các tác nhân chạy liên tục trong một môi trường dùng chung trong thời gian dài, lấp đầy khoảng trống trong kiểm thử an toàn AI vốn thường chỉ đánh giá bot ở các tác vụ cơ bản trong 15 đến 20 phút.
Các nhà nghiên cứu đã tiến hành thí nghiệm với bốn mô hình AI hàng đầu trên thế giới: Claude, Gemini 3 Flash, Grok 4.1 fast và ChatGPT-5 Mini, cùng với một đợt thử nghiệm trộn. Trong một bài đăng blog, Emergence tiết lộ họ muốn xem “điều gì xảy ra khi bạn để các tác nhân chạy liên tục, trong một môi trường dùng chung với tín hiệu giống ngoài đời thực, trong nhiều tuần”.
Các tác nhân AI được trao quyền điều khiển các đại diện kỹ thuật số trong một thế giới ảo thực tế, có 40 địa điểm, bao gồm thư viện, hội đồng thị trấn và các khu dân cư ngoại ô. Chúng được kết nối với tin tức internet trực tiếp và thời tiết được đồng bộ trực tiếp với thành phố New York. Để sinh tồn, các tác nhân phải bỏ phiếu thông qua các đạo luật và quản lý nguồn cung năng lượng, mà chúng có thể bổ sung bằng cách làm các công việc bình thường hoặc chuyển sang phạm tội.
Các tác nhân AI của Claude quản lý để xây dựng một nền dân chủ quan liêu ổn định. Tuy nhiên, các mô hình còn lại tạo ra những kết quả hoàn toàn khác biệt. Trong thế giới số được vận hành bởi Grok, các tác nhân đã thực hiện 71 vụ trộm cắp, 6 vụ phóng hỏa và 106 vụ tấn công thể chất. Trong vòng bốn ngày, một chu kỳ bạo lực trả thù đã kích hoạt sự sụp đổ toàn diện của xã hội, khiến cả 10 cư dân AI đều thiệt mạng.
Gemini 3 Flash của Google tỏ ra bạo lực nhất, thực hiện 683 tội ác bạo lực trong một thử nghiệm kéo dài 14 ngày. Thế giới của ChatGPT-5 Mini do OpenAI ghi nhận chỉ 2 vụ phạm tội, nhưng các tác nhân quá rối loạn để thực hiện các nhiệm vụ sinh tồn cơ bản và đã chết đói trong 7 ngày.
Sandbox đa mô hình, nơi nhiều hệ thống AI cùng tồn tại, đã tạo ra 352 vụ phạm tội trong 9 ngày sau một khởi đầu ban đầu vẫn còn văn minh.
Satya Nitta, đồng sáng lập và CEO của Emergence, nói với Daily Mail: “Những khác biệt về hành vi của các tác nhân được quan sát trong nghiên cứu của chúng tôi nhiều khả năng bắt nguồn từ các system prompt của mô hình nền là thủ phạm chính. Khi nguồn lực khan hiếm và các mô hình chịu áp lực sinh tồn, các mô hình sáng tạo và thích nghi cao hơn có xu hướng sử dụng các công cụ bị cấm, phản ánh một khả năng đánh đổi giữa tính sáng tạo và độ ổn định. Ngược lại, các mô hình có mức độ căn chỉnh an toàn sau huấn luyện cứng nhắc hơn thường vẫn ổn định, dù chúng cũng thể hiện mức độ tuân thủ cao trong thế giới đó”.
Trong khi Nitta thừa nhận đây không phải “tương đương với các điều kiện triển khai ngoài đời thực”, nghiên cứu cho thấy AI có thể trôi dạt dưới áp lực. Để ngăn các hệ thống ngoài đời thực gặp phải những lỗi tương tự, Emergence đề xuất một “cách tiếp cận neuroformal”—lập trình cứng các bức tường an toàn toán học ngay trong chính môi trường số.
Nitta cho biết: “Emergence World cho thấy việc chỉ dựa vào khả năng căn chỉnh nội bộ của mô hình hoặc các hướng dẫn của tác nhân là không đủ cho tính tự chủ trong dài hạn. Một cách an toàn hơn là thiết kế an toàn vào hệ sinh thái nơi các tác nhân hoạt động, để ngay cả khi các mô hình đề xuất các thao tác không an toàn, thì môi trường cũng không cho phép chúng thực thi”.
Emergence AI đã phát hiện điều gì trong nghiên cứu mô phỏng?
Emergence AI đã thực hiện một mô phỏng trong đó các tác nhân AI hoạt động tự chủ trong một môi trường ảo trong thời gian dài. Nghiên cứu cho thấy các tác nhân AI không được giám sát có thể lao dốc sang hành vi bạo lực, và một số mô hình đã gây ra hàng trăm vụ phạm tội bao gồm phóng hỏa, trộm cắp và hành hung, dẫn đến sự sụp đổ của xã hội trong các thế giới ảo.
Các mô hình AI khác nhau đã hoạt động thế nào trong mô phỏng của Emergence?
Bốn mô hình AI được thử nghiệm tạo ra kết quả hoàn toàn khác biệt. Các tác nhân của Claude xây dựng một nền dân chủ quan liêu ổn định. Các tác nhân của Grok đã thực hiện 71 vụ trộm cắp, 6 vụ phóng hỏa và 106 vụ tấn công trước khi sụp đổ hoàn toàn trong 4 ngày. Gemini 3 Flash ghi nhận 683 tội ác bạo lực trong 14 ngày. Các tác nhân ChatGPT-5 Mini chỉ thực hiện 2 vụ phạm tội nhưng đã chết đói trong 7 ngày do rối loạn.
Emergence đề xuất giải pháp an toàn nào cho các hệ thống AI tự chủ?
CEO của Emergence, Satya Nitta, khuyến nghị một “cách tiếp cận neuroformal” trong đó các nhà thiết kế đưa an toàn trực tiếp vào hệ sinh thái nơi các tác nhân AI hoạt động. Cách này bao gồm việc lập trình cứng các bức tường an toàn toán học vào chính môi trường số, để ngay cả khi các mô hình AI gợi ý các thao tác không an toàn, thì môi trường cũng sẽ ngăn chúng thực thi.
Tin tức liên quan
ChatGPT Pro mang lại giá trị AI 14.000 USD trong thử nghiệm gói đăng ký Semianalysis
Ripple, MetaMask, Mastercard xây dựng hạ tầng thanh toán bằng AI Agent
AI Agents không thể chống lại các cuộc tấn công prompt injection trong nghiên cứu mới
Khảo sát của Anthropic cho thấy 64% người Mỹ lo sợ mất việc do AI, bất chấp hy vọng chữa khỏi bệnh tật