BioMysteryBench: Mythos giải chuyên gia không có lời giải 29,6%

ChainNewsAbmedia

Anthropic ngày 29 tháng 4 đã công bố chính thức BioMysteryBench—một bộ tiêu chí đánh giá mới cho năng lực phân tích sinh tin học của AI, bao gồm các câu hỏi dạng mở trong bối cảnh nghiên cứu thực tế. Dữ liệu đáng chú ý nhất là: trong số các đề mà nhóm chuyên gia con người thử nghiệm nhưng vẫn không giải được, mô hình flagship Mythos của Anthropic giải được 29,6%, Opus 4.7 giải được 27,0%.

Thiết kế đánh giá: song song hai nhánh—đề giải được và đề chuyên gia không giải được

BioMysteryBench gồm hai loại câu hỏi. Nhóm đầu tiên là “đề giải được”—các nhiệm vụ phân tích do nhân viên nghiên cứu sinh tin học thiết kế, có đáp án chuẩn để đối chiếu. Nhóm thứ hai là “đề chuyên gia không giải được”—những câu hỏi sau khi do một nhóm chuyên gia nhân loại thử vẫn không thể tìm ra lời giải đáng tin cậy, nhằm kiểm tra liệu mô hình có thể vượt qua ranh giới kiến thức hiện tại của lĩnh vực hay không.

Ở phần đề giải được, các mô hình của Anthropic qua từng thế hệ cho thấy sự chênh lệch năng lực rõ ràng: Claude Haiku 4.5 giải được 36,8%, Claude Sonnet 4.6 đạt 71,8%, còn Claude Mythos flagship mới nhất đạt 82,6%. Mức tăng trưởng này nhìn chung phù hợp với tuyên bố về khác biệt năng lực giữa các mô hình của Anthropic—Haiku là mô hình nhẹ, Sonnet là dòng chủ lực, Mythos là mô hình nghiên cứu hàng đầu.

Điều thực sự gây chú ý nằm ở phần đề chuyên gia không giải được. Đây là các câu hỏi được một nhóm chuyên gia trong lĩnh vực sinh tin học đánh giá và gắn nhãn là “không giải được hoặc không có đồng thuận”; Mythos giải được 29,6%, Opus 4.7 giải được 27,0%. Kết quả này không phải là một bằng chứng đơn lẻ rằng “mô hình vượt trội hơn con người”—diễn đạt chính xác hơn là: với những vấn đề mà chuyên gia không xử lý được do giới hạn về lộ trình, thời gian hoặc nguồn lực, AI có thể đưa ra các đường hướng giải có thể được xác minh; có thể không phải là đáp án cuối cùng, nhưng sở hữu thuộc tính “một góc nhìn chưa từng được con người thử”.

Song song đẩy tiến cùng Claude for Life Sciences

BioMysteryBench đi cùng hướng với kế hoạch “Claude for Life Sciences” mà Anthropic triển khai từ nửa cuối năm 2025. Kế hoạch sau nhắm tới các bối cảnh ứng dụng cụ thể như nghiên cứu phát triển thuốc, hệ gen học và thiết kế thử nghiệm lâm sàng; còn kế hoạch trước dùng phương pháp đánh giá để lượng hóa tiến triển năng lực “cấp độ nghiên cứu” của AI trong lĩnh vực khoa học đời sống. Tín hiệu kết hợp của hai hướng này là: Anthropic định vị y sinh học như một trong những chiến trường ứng dụng dài hạn trọng điểm của Claude, cạnh tranh với DeepMind AlphaFold theo một lối vào khác.

Con số gần 30% đề chuyên gia không giải được mà Mythos giải được, nếu có thể được tái hiện trong một lần xác minh độc lập từ bên thứ ba, sẽ trở thành bằng chứng sớm về giá trị cụ thể của mô hình AI trong bối cảnh nghiên cứu khoa học. Các điểm cần theo dõi tiếp theo bao gồm: BioMysteryBench có được các tổ chức nghiên cứu khác áp dụng làm bộ tiêu chuẩn đánh giá hay không, quy trình xác minh của các chuyên gia nhân loại đối với các đề giải được, và liệu Mythos có thể tái tạo kết quả kiểm thử trong các kế hoạch nghiên cứu thực tế hay không.

Bài viết BioMysteryBench: Myhos giải chuyên gia không giải được 29,6% lần đầu xuất hiện trên 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận