AI Vẫn Chưa Thể Đánh Bại Kỹ Sư Trực Sẵn: Đây Là Lý Do

Tóm tắt ngắn gọn

  • ARFBench là chuẩn đánh giá AI đầu tiên được xây dựng hoàn toàn từ các sự cố sản xuất thực tế.
  • GPT-5 dẫn đầu tất cả các mô hình AI hiện có với độ chính xác 62,7% nhưng vẫn chưa đạt tới các chuyên gia lĩnh vực với 72,7%.
  • Một mô hình giả thuyết chuyên gia-mô hình—kết hợp AI và phán đoán của con người—đạt 87,2% độ chính xác, đặt ra giới hạn cho những gì các nhóm hợp tác AI-con người có thể đạt được.

Các công ty AI tiếp tục giới thiệu các tác nhân kỹ sư độ tin cậy trang web tự động—AI điều tra các sự cố sản xuất thay cho con người. Datadog đã thực hiện chuẩn đánh giá thực tế trên các sự cố thực, và các mô hình AI tốt nhất hiện nay vẫn chưa thể vượt qua các kỹ sư mà chúng dự định thay thế. Chuẩn đánh giá là ARFBench (Khung Đánh Giá Lý Thuyết Giải Thích Dị Thường), một dự án hợp tác giữa Datadog và Carnegie Mellon. Được xây dựng từ 63 sự cố sản xuất thực, trích xuất từ các cuộc trò chuyện Slack của kỹ sư trong các tình huống khẩn cấp trực tiếp—750 câu hỏi trắc nghiệm bao gồm 142 chỉ số giám sát và 5,38 triệu điểm dữ liệu, mỗi câu hỏi đều được xác nhận thủ công. Không có dữ liệu tổng hợp. Không có kịch bản trong sách giáo khoa. “Các khoản thiệt hại hàng nghìn tỷ đô la mỗi năm do các sự cố hệ thống,” các nhà nghiên cứu viết. Chuẩn đánh giá kiểm tra xem AI có thể thực sự giúp thay đổi điều đó hay không.

“Dù phân tích dựa trên câu hỏi đóng vai trò trung tâm trong phản ứng sự cố, vẫn chưa rõ các mô hình nền tảng hiện đại có thể đáng tin cậy trả lời các câu hỏi dạng chuỗi thời gian mà các kỹ sư thường hỏi trong thực tế hay không,” bài báo viết.  Các câu hỏi có ba cấp độ. Cấp I: Có tồn tại dị thường trong biểu đồ này không? Cấp II: Nó bắt đầu khi nào, mức độ nghiêm trọng ra sao, loại gì?
Cấp III—cấp độ khó nhất—yêu cầu suy luận chéo các chỉ số: Biểu đồ này có gây ra vấn đề trong biểu đồ kia không? Đó là nơi AI gặp khó khăn. GPT-5 chỉ đạt 47,5% điểm F1 trên các câu hỏi Cấp III, một chỉ số phạt các mô hình vì chơi trò chơi câu trả lời phổ biến nhất.

“Dù phân tích dựa trên câu hỏi đóng vai trò trung tâm trong phản ứng sự cố, vẫn chưa rõ các mô hình nền tảng hiện đại có thể đáng tin cậy trả lời các câu hỏi dạng chuỗi thời gian mà các kỹ sư thường hỏi trong thực tế hay không,” các nhà nghiên cứu viết. Các mô hình xếp hạng như thế nào GPT-5 dẫn đầu tất cả các mô hình hiện có với độ chính xác 62,7%—trong một bài kiểm tra mà đoán ngẫu nhiên đạt 24,5%. Gemini 3 Pro đạt 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%. Chuyên gia lĩnh vực đạt 72,7% độ chính xác. Các nhà nghiên cứu không chuyên—những người nghiên cứu chuỗi thời gian tại Datadog mà không có nhiều kinh nghiệm về khả năng quan sát—vẫn đạt 69,7%. Không mô hình AI nào vượt qua được cả hai mức cơ bản của con người.

Hình ảnh do Decrypt xây dựng dựa trên file CSV bảng xếp hạng ARFBench

Mô hình thực sự đứng đầu bảng xếp hạng toàn diện là mô hình lai của Datadog: Toto—mô hình dự báo chuỗi thời gian nội bộ của họ—kết hợp với Qwen3-VL 32B. Toto-1.0-QA-Experimental đạt 63,9% độ chính xác, vượt qua GPT-5 trong khi sử dụng phần nhỏ tham số hơn. Riêng về nhận diện dị thường, nó vượt trội hơn tất cả các mô hình khác ít nhất 8,8 điểm phần trăm trong F1. Một mô hình chuyên biệt, được huấn luyện dựa trên dữ liệu khả năng quan sát, vượt trội hơn một hệ thống tổng quát tiên phong cho nhiệm vụ cụ thể này là điều dự kiến. Đó chính là mục đích. Phát hiện giá trị nhất không phải là mô hình nào đạt điểm cao nhất. “Chúng tôi quan sát các hồ sơ lỗi khác nhau rõ rệt giữa các mô hình hàng đầu và các chuyên gia con người, cho thấy rằng điểm mạnh của họ bổ sung cho nhau,” các nhà nghiên cứu viết. Các mô hình hay “ảo tưởng”, bỏ lỡ siêu dữ liệu, và mất ngữ cảnh lĩnh vực. Con người đọc sai thời gian chính xác và thỉnh thoảng thất bại trong các hướng dẫn phức tạp. Các sai sót hầu như không trùng lặp.

Hãy mô phỏng một “Giả thuyết Mô hình-Chuyên gia”—một trọng tài hoàn hảo luôn chọn đúng câu trả lời giữa AI và con người—bạn sẽ có độ chính xác 87,2% và F1 là 82,8%. Cao hơn nhiều so với từng cái riêng lẻ. Đó không phải là một sản phẩm. Đó là một mục tiêu đã được ghi nhận—được xây dựng từ các tình huống khẩn cấp thực tế, không phải dữ liệu đã qua chọn lọc—đo lường chính xác mức độ hợp tác giữa con người và AI có thể tốt hơn bao nhiêu. Bảng xếp hạng đang hoạt động trực tiếp trên Hugging Face. GPT-5 đứng ở 62,7%. Giới hạn trên là 87,2%.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim