Sakana AI Fugu Ultra vs Fable 5: So sánh Benchmark bị nghi vấn về khác biệt trong khung thử nghiệm

Theo dõi của Beating, hệ thống đa tác tử Fugu Ultra của Sakana AI tự nhận đã vượt qua Fable 5 của Anthropic trong các điểm chuẩn về lập luận khoa học và lập trình, nhưng vấp phải sự hoài nghi rộng rãi từ cộng đồng AI.

Các nhà phê bình cho rằng điểm số điểm chuẩn phụ thuộc nhiều vào khung thử nghiệm được sử dụng trong quá trình đánh giá. Các khung thử nghiệm khác nhau có thể tạo ra chênh lệch 10-20 điểm, nghĩa là sự khác biệt hiệu suất được báo cáo có thể phản ánh tối ưu hóa kỹ thuật hệ thống hơn là các tiến bộ cơ bản về năng lực mô hình. Cả Sakana AI và Anthropic đều công bố kết quả dựa trên các khung thử nghiệm độc quyền riêng của từng nhà cung cấp, không có môi trường thử nghiệm thống nhất của bên thứ ba, hạn chế độ tin cậy của các so sánh trực tiếp.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận