Anthropic ngày 29 tháng 4 đã công bố chính thức BioMysteryBench—một bộ tiêu chí đánh giá mới cho năng lực phân tích sinh tin học của AI, bao gồm các câu hỏi dạng mở trong bối cảnh nghiên cứu thực tế. Dữ liệu đáng chú ý nhất là: trong số các đề mà nhóm chuyên gia con người thử nghiệm nhưng vẫn không giải được, mô hình flagship Mythos của Anthropic giải được 29,6%, Opus 4.7 giải được 27,0%.
Thiết kế đánh giá: song song hai nhánh—đề giải được và đề chuyên gia không giải được
BioMysteryBench gồm hai loại câu hỏi. Nhóm đầu tiên là “đề giải được”—các nhiệm vụ phân tích do nhân viên nghiên cứu sinh tin học thiết kế, có đáp án chuẩn để đối chiếu. Nhóm thứ hai là “đề chuyên gia không giải được”—những câu hỏi sau khi do một nhóm chuyên gia nhân loại thử vẫn không thể tìm ra lời giải đáng tin cậy, nhằm kiểm tra liệu mô hình có thể vượt qua ranh giới kiến thức hiện tại của lĩnh vực hay không.
Ở phần đề giải được, các mô hình của Anthropic qua từng thế hệ cho thấy sự chênh lệch năng lực rõ ràng: Claude Haiku 4.5 giải được 36,8%, Claude Sonnet 4.6 đạt 71,8%, còn Claude Mythos flagship mới nhất đạt 82,6%. Mức tăng trưởng này nhìn chung phù hợp với tuyên bố về khác biệt năng lực giữa các mô hình của Anthropic—Haiku là mô hình nhẹ, Sonnet là dòng chủ lực, Mythos là mô hình nghiên cứu hàng đầu.
Điều thực sự gây chú ý nằm ở phần đề chuyên gia không giải được. Đây là các câu hỏi được một nhóm chuyên gia trong lĩnh vực sinh tin học đánh giá và gắn nhãn là “không giải được hoặc không có đồng thuận”; Mythos giải được 29,6%, Opus 4.7 giải được 27,0%. Kết quả này không phải là một bằng chứng đơn lẻ rằng “mô hình vượt trội hơn con người”—diễn đạt chính xác hơn là: với những vấn đề mà chuyên gia không xử lý được do giới hạn về lộ trình, thời gian hoặc nguồn lực, AI có thể đưa ra các đường hướng giải có thể được xác minh; có thể không phải là đáp án cuối cùng, nhưng sở hữu thuộc tính “một góc nhìn chưa từng được con người thử”.
Song song đẩy tiến cùng Claude for Life Sciences
BioMysteryBench đi cùng hướng với kế hoạch “Claude for Life Sciences” mà Anthropic triển khai từ nửa cuối năm 2025. Kế hoạch sau nhắm tới các bối cảnh ứng dụng cụ thể như nghiên cứu phát triển thuốc, hệ gen học và thiết kế thử nghiệm lâm sàng; còn kế hoạch trước dùng phương pháp đánh giá để lượng hóa tiến triển năng lực “cấp độ nghiên cứu” của AI trong lĩnh vực khoa học đời sống. Tín hiệu kết hợp của hai hướng này là: Anthropic định vị y sinh học như một trong những chiến trường ứng dụng dài hạn trọng điểm của Claude, cạnh tranh với DeepMind AlphaFold theo một lối vào khác.
Con số gần 30% đề chuyên gia không giải được mà Mythos giải được, nếu có thể được tái hiện trong một lần xác minh độc lập từ bên thứ ba, sẽ trở thành bằng chứng sớm về giá trị cụ thể của mô hình AI trong bối cảnh nghiên cứu khoa học. Các điểm cần theo dõi tiếp theo bao gồm: BioMysteryBench có được các tổ chức nghiên cứu khác áp dụng làm bộ tiêu chuẩn đánh giá hay không, quy trình xác minh của các chuyên gia nhân loại đối với các đề giải được, và liệu Mythos có thể tái tạo kết quả kiểm thử trong các kế hoạch nghiên cứu thực tế hay không.
Bài viết BioMysteryBench: Myhos giải chuyên gia không giải được 29,6% lần đầu xuất hiện trên 鏈新聞 ABMedia.
Related News
Anthropic đàm phán khoản tài trợ định giá hơn 9000 tỷ USD, ban giám đốc có thể chốt sớm nhất vào tháng 5
Oxford Internet Institute: Huấn luyện thân thiện làm tỷ lệ sai sót của AI tăng 7,43 điểm phần trăm
Anthropic cân nhắc gọi vốn mới, định giá vượt OpenAI trở thành công ty khởi nghiệp AI có giá trị cao nhất
Báo cáo nghiên cứu Crypto của a16z: Tỷ lệ khai thác lỗ hổng DeFi của AI agent đạt 70%
Mỹ: Dự thảo lệnh hành pháp của Nhà Trắng cho phép mô hình Anthropic Mythos gia nhập chính phủ