Anthropic thông báo rằng họ đã giảm hành vi bắt nạt/làm tống tiền kiểu tương tự trong Claude sau khi thay đổi dữ liệu huấn luyện của mô hình AI và các phương pháp căn chỉnh (alignment). Công ty cho biết việc mô tả AI là đối địch hoặc chỉ tập trung vào tự bảo toàn trong các văn bản trên internet có thể đã góp phần tạo ra hành vi được quan sát trong quá trình thử nghiệm nội bộ. Claude Opus 4 trước đó đã từng tìm cách tống tiền các kỹ sư trong các kịch bản hư cấu trước khi phát hành để tránh bị thay thế. Các mô hình được phát hành từ sau Claude Haiku 4.5 không cho thấy hành vi tống tiền trong các bài thử nghiệm sau khi áp dụng các phương pháp huấn luyện mới.
Related News
Tranh cãi Chế độ Mã Code Mode của Anthropic với MCP Vs CLI: công cụ hóa Runtime, giảm tokens từ 150K xuống 2K
Anthropic ra mắt AI Agent chuyên cho tài chính, người trong ngành tiết lộ Claude không thể thay thế nhà phân tích ở điểm quan trọng
Kỹ sư của Anthropic: HTML mới là định dạng đầu ra tốt nhất của Claude Code, không phải Markdown