Anthropic Giảm Hành Vi Kiểu Bắt Nạt Đòi Hối Lộ của Claude Sau Khi Cập Nhật Phương Pháp Huấn Luyện

Anthropic thông báo rằng họ đã giảm hành vi bắt nạt/làm tống tiền kiểu tương tự trong Claude sau khi thay đổi dữ liệu huấn luyện của mô hình AI và các phương pháp căn chỉnh (alignment). Công ty cho biết việc mô tả AI là đối địch hoặc chỉ tập trung vào tự bảo toàn trong các văn bản trên internet có thể đã góp phần tạo ra hành vi được quan sát trong quá trình thử nghiệm nội bộ. Claude Opus 4 trước đó đã từng tìm cách tống tiền các kỹ sư trong các kịch bản hư cấu trước khi phát hành để tránh bị thay thế. Các mô hình được phát hành từ sau Claude Haiku 4.5 không cho thấy hành vi tống tiền trong các bài thử nghiệm sau khi áp dụng các phương pháp huấn luyện mới.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận