Claude Fable 5到底比Opus 4.8强多少?


Trong hai ngày qua, tôi đã đặc biệt thử nghiệm với một dự án thực tế.
Không phải LeetCode, cũng không phải demo đơn file, mà là một dự án SaaS đã chạy hai năm.
Khoảng 48 tệp chính, kiến trúc pha trộn phía trước và phía sau, một dự án mang nhiều gánh nặng lịch sử.
Nhiệm vụ thử nghiệm rất đơn giản: tách logic kiểm tra quyền hạn rải rác trong nhiều module thành một trung gian thống nhất, đồng thời đảm bảo tính tương thích của các API cũ.
Điều khó nhất của nhiệm vụ này thực ra không phải viết mã, mà là duy trì ngữ cảnh liên tục.
Mô hình cần hiểu logic cũ, phát hiện các mối quan hệ phụ thuộc, chỉnh sửa nhiều tệp, cập nhật chuỗi gọi hàm, rồi tự xác minh xem có bỏ sót gì không.
Tôi đã đưa cùng một Prompt lần lượt cho Claude Fable 5, Opus 4.8, GPT-5.5 và Gemini 3.1 Pro.
Toàn bộ quá trình được thực hiện trong chế độ PK của ZenMux, vì có thể đồng thời quan sát đầu ra, độ trễ và tiêu thụ Token.
Kết quả khá thú vị, GPT-5.5 là nhanh nhất bắt đầu làm việc, nhưng từ tệp thứ 11 trở đi bắt đầu xuất hiện rõ ràng sự lệch ngữ cảnh.
Gemini 3.1 Pro rất giỏi giải thích, nhưng phương án chỉnh sửa khá bảo thủ.
Khả năng hiểu kiến trúc của Opus 4.8 vẫn rất mạnh, nhưng trong việc theo dõi phụ thuộc giữa các module lại bỏ sót hai phép kiểm tra quyền hạn biên.
Fable 5 là mô hình duy nhất chủ động quay lại kiểm tra chính phương án của mình.
Nó không chỉ tạo ra kế hoạch chỉnh sửa, mà còn tự liệt kê các điểm rủi ro tiềm ẩn, rồi quét lại chuỗi gọi hàm để xác minh.
Thậm chí có lần mô hình tự nói nhiệm vụ đã hoàn thành, rồi sau đó phát hiện bỏ sót, chủ động đảo ngược kết luận trước đó để sửa chữa.
Điều này thực sự là điều tôi quan tâm nhất, vì trong dự án thực tế, thứ đắt giá nhất không phải là mô hình viết sai mã, mà là mô hình nghĩ rằng mình đã viết đúng.
Chính thức luôn nhấn mạnh về khả năng Tự xác minh của Fable 5.
Ban đầu tôi nghĩ đó chỉ là thuật ngữ marketing, nhưng sau thử nghiệm thực tế, khả năng này thực sự tồn tại, và giá trị của nó trong các nhiệm vụ phức tạp còn rõ ràng hơn nhiều so với các số Benchmark.
Tất nhiên, chi phí cũng rất thực tế, thời gian phản hồi trung bình của Fable 5 rõ ràng lâu hơn, đôi khi bạn có thể cảm nhận được nó đang suy nghĩ.
Nếu là các tác vụ CRUD đơn giản hoặc script thông thường, tôi sẽ không chọn nó.
Nhưng đối với các nhiệm vụ cần liên tục hiểu nhiều chục tệp, duy trì suy luận chuỗi dài, thì hiện tại nó thực sự để lại ấn tượng sâu sắc nhất trong tôi.
Kết luận của tôi rất đơn giản, Fable 5 không phải là trình sinh mã mạnh hơn, mà giống như một cộng tác viên dự án đáng tin cậy hơn.
Đây cũng là lý do ngày càng nhiều người bắt đầu xem nó như một Orchestrator trong Agent Workflow, chứ không chỉ là một Mô hình lập trình đơn thuần.
Nếu bạn cũng muốn tự thử nghiệm tương tự, gần đây ZenMux đã tích hợp Fable 5, và đang tổ chức hoạt động nạp tiền PAYG có giới hạn thời gian một tuần.
Nạp 20 USD tặng 10 USD, nạp 50 USD tặng 30 USD.
Quan trọng nhất là không giới hạn RPM, không giới hạn luồng, cũng không cần đăng ký hạn mức riêng của các nhà cung cấp khác, chỉ cần một tài khoản là có thể gọi đồng thời hơn 200 mô hình để so sánh.
Đối với những ai muốn thử nghiệm kỹ lưỡng sự khác biệt giữa Fable 5, Opus 4.8, GPT-5.5, thì rào cản thực sự rất thấp.
Liên kết hoạt động:
Muốn trải nghiệm Claude Fable 5 ngay lập tức đừng bỏ lỡ.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim