Theo bài phát biểu của Jack Clark tại Đại học Oxford, đồng sáng lập của Anthropic đã cảnh báo rằng trí tuệ nhân tạo có thể đạt được khả năng tự cải thiện đệ quy—theo đó nó có thể tự nâng cấp và tạo ra các phiên bản tiên tiến hơn—có khả năng diễn ra vào năm 2028 hoặc sớm hơn. Clark thừa nhận rằng chính Anthropic đã đánh giá thấp đáng kể tốc độ tiến bộ của AI và đang chưa sẵn sàng trước các rủi ro do các mô hình tiên tiến gây ra.
Clark viện dẫn Mythos, một mô hình nội bộ được hoàn tất vào tháng 4 năm 2026, như bằng chứng cho các rủi ro này. Mô hình có năng lực tương đương vũ khí tấn công mạng cấp độ nhà nước. Do tiềm năng gây phá hủy, Anthropic đã cấm vô thời hạn việc phát hành công khai Mythos, chỉ giới hạn quyền truy cập cho một số ít tổ chức nhằm phục vụ nghiên cứu lỗ hổng phần mềm.