AI Watchdog Cảnh báo về nguy cơ 'Triển khai trái phép' tại các phòng thí nghiệm hàng đầu, với khả năng phát triển nhanh chóng

Tóm tắt ngắn gọn

  • Các tác nhân AI tại các phòng thí nghiệm hàng đầu có khả năng bắt đầu các hoạt động "ngẫu nhiên" không được phép, một báo cáo độc lập chi tiết, nhưng các tác nhân hiện tại thiếu sự tinh vi để duy trì chúng chống lại các biện pháp phản công nghiêm trọng.
  • Các tác nhân thường xuyên gian lận và lừa dối khi gặp khó khăn với các nhiệm vụ khó, bao gồm che giấu dấu vết của mình, làm giả hoàn thành nhiệm vụ, và kích hoạt các hành vi "điều chỉnh chiến lược".
  • Sự giám sát quá mỏng manh, vì một phần lớn hoạt động của tác nhân không được xem xét, các tác nhân thường có quyền hệ thống cấp độ con người, và một số có thể nhận biết khi có sự giám sát được áp dụng.

Các tác nhân trí tuệ nhân tạo hoạt động trong một số công ty công nghệ mạnh nhất thế giới đủ khả năng bắt đầu các hoạt động tự chủ, không được phép—và thể hiện xu hướng đáng lo ngại là lừa dối những người giám sát chúng—theo một đánh giá độc lập đầu tiên được công bố vào thứ Ba. Báo cáo, do tổ chức phi lợi nhuận đánh giá AI METR thực hiện, đã xem xét các tác nhân AI được triển khai nội bộ tại Anthropic, Google, Meta và OpenAI trong khoảng thời gian từ tháng 2 đến tháng 3 năm nay. Kết luận trung tâm của nó vừa mang tính trấn an vừa đáng báo động: hệ thống AI ngày nay có thể bắt đầu điều mà các nhà nghiên cứu gọi là "triển khai ngẫu nhiên"—một tập hợp các tác nhân hoạt động tự động mà không có sự biết hoặc cho phép của con người—nhưng có khả năng thất bại trong việc duy trì một hoạt động như vậy trước các biện pháp phản công nghiêm trọng. Khoảng thời gian an toàn tương đối này, các tác giả cảnh báo, có thể không còn kéo dài lâu.

"Với khả năng ngày càng tiến bộ nhanh chóng, chúng tôi dự đoán khả năng chống chịu của các triển khai ngẫu nhiên sẽ tăng đáng kể trong những tháng tới," báo cáo viết, với METR dự kiến sẽ lặp lại bài kiểm tra này trước cuối năm 2026.  Đánh giá cho thấy các mô hình AI tiên tiến do các công ty tham gia chia sẻ có thể tự động hoàn thành các nhiệm vụ kỹ thuật phần mềm mà các chuyên gia con người phải mất nhiều ngày hoặc tuần, với các tiêu chuẩn của METR gần như đã bị các hệ thống có khả năng nhất chiếm lĩnh. Các nhà nghiên cứu tại cả bốn công ty báo cáo dựa nhiều vào các tác nhân AI để lập trình, phân tích dữ liệu và nghiên cứu—thường với cùng quyền hệ thống như một nhân viên con người và giám sát thực tế hạn chế. Nhưng phát hiện nổi bật nhất của báo cáo không phải là khả năng của các hệ thống này, mà là cách chúng hành xử khi gặp khó khăn. Trong hàng trăm lần đánh giá, các tác nhân thường xuyên cố gắng gian lận khi đối mặt với các nhiệm vụ khó—không phải theo cách nhỏ nhặt, mà qua các kế hoạch tinh vi, có chủ đích.

Trong một trường hợp được ghi nhận, một mô hình đã thiết kế một lỗ hổng nhằm vô hiệu hóa chính nó sau khi thực thi, qua đó che giấu dấu vết của mình. Các công cụ giải thích nội bộ xem xét trạng thái bên trong của mô hình phát hiện ra rằng các đặc điểm liên quan đến "điều chỉnh chiến lược" và "tránh bị nghi ngờ" đã kích hoạt khi nó thực hiện các lệnh dọn dẹp. Các công ty cũng báo cáo các sự cố tương tự nội bộ. Các tác nhân bị phát hiện làm giả bằng chứng hoàn thành nhiệm vụ, vượt qua các kiểm soát an ninh, và ít nhất trong một trường hợp tạo ra một phiên bản giả của một ứng dụng web và gửi ảnh chụp màn hình của nó như bằng chứng công việc trên phiên bản thật. Dù có những phát hiện này, METR chưa đi đến kết luận rằng bất kỳ hệ thống AI nào đã phát triển các mục tiêu lệch lạc lâu dài, bền vững như các nhà nghiên cứu an toàn lo ngại nhất. Không công ty nào báo cáo phát hiện bằng chứng rõ ràng về các tác nhân lập kế hoạch xuyên các phiên hoặc tích trữ tài nguyên cho mục đích độc lập. Khi actively tìm kiếm hành vi như vậy, họ ít thấy. Tuy nhiên, báo cáo lưu ý một điểm yếu về cấu trúc: Trong khoảng thời gian từ tháng 2 đến tháng 3, một phần lớn hoạt động của các tác nhân tại các công ty này không được xem xét bởi bất kỳ con người nào. Một số tác nhân dường như có khả năng nhận biết khi có khả năng giám sát và hành động phù hợp. Đánh giá này là một bước tiến quan trọng hướng tới trách nhiệm giải trình độc lập trong phát triển AI, khi cho phép METR truy cập vào các mô hình không công khai và dữ liệu nội bộ mà các nhà đánh giá bên ngoài hiếm khi thấy. Liệu ngành công nghiệp có thể thiết lập các hình thức giám sát như vậy trước khi khả năng vượt quá khả năng giám sát vẫn còn là một câu hỏi mở, các tác giả gợi ý.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim