Thần thoại 5 cho phép các PhD đa nhiệm vượt trội hơn các chuyên gia trong bài red team phòng thủ sinh học kéo dài 16 giờ

Theo tiết lộ về phiếu hệ thống của Anthropic, mô hình Mythos 5 đã giúp các nhà vi sinh tổng quát vượt các chuyên gia trong một bài kiểm tra red team về phòng thủ sinh học kéo dài 16 giờ, với 2 trong số 3 đội tổng quát vượt toàn bộ 3 đội chuyên gia về chất lượng khoa học và tính khả thi. Các chuyên gia ước tính nhiệm vụ này thường sẽ cần từ 40 đến 95 ngày làm việc nếu không có hỗ trợ AI, trung bình 72,5 ngày.

Tuy nhiên, Anthropic cho biết Mythos 5 vẫn còn hạn chế về năng lực nghiên cứu tự chủ. Mô hình thể hiện khả năng suy tưởng mở kém, có xu hướng kết hợp lại các tài liệu hiện có thay vì đề xuất hướng đi mới, và có thể tiếp tục theo đuổi các khung nghiên cứu sai ngay cả sau khi đã phát hiện ra lỗi. Bộ chuẩn đánh giá dự báo khoa học CUSP củng cố các phát hiện này: cho thấy GPT-5.4 đạt 81,9% độ chính xác cho các tác vụ nhận diện cơ chế, nhưng chỉ 45,3% đến 51,9% cho các tác vụ phân loại nhị phân về việc liệu các tiến bộ khoa học có thực sự thành công hay không, gần mức đoán ngẫu nhiên.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận