Trong cả năm 2025, cộng đồng AI Engineering đã tranh luận không ngừng về câu hỏi “MCP hay CLI phù hợp hơn cho việc gọi công cụ của Agent”, và bài báo “Code execution with MCP” do Anthropic công bố vào tháng 11/2025 đã định nghĩa lại vấn đề từ những nguyên lý cốt lõi. akshay_pachaar đã tổng hợp thread vào ngày 5/10, giải thích rằng vấn đề không nằm ở bản thân giao thức, mà nằm ở thói quen cũ “khi bắt đầu session, nhét toàn bộ mô tả công cụ vào context”. Giải pháp của Anthropic là để mô hình viết mã để gọi công cụ, còn runtime chịu trách nhiệm quản lý các chi tiết công cụ. Chế độ mới được gọi là “Code Mode”.
Vấn đề của chế độ cũ: trong 150K tokens, mô hình dùng phần lớn là không được
Cấu trúc lãng phí của MCP cũ:
Playwright MCP: 13,7K tokens (nhồi đầy một lần)
Chrome DevTools MCP: 18K tokens
5 server được cấu hình: còn chưa bắt đầu làm việc đã đốt 55K tokens
Một workflow chạy trọn vẹn: có thể phình lên 150K tokens
Mô hình thực sự dùng được: hầu như không dùng đến phần lớn
Những người chỉ trích cho rằng nên chuyển sang CLI, nhưng CLI trong app đa tenant dễ phát sinh lỗi, thiếu typed contract, và agent khi chưa quen API thì phải tốn thêm lượt để phân tích đầu ra dạng văn bản. Hai phe đều có lý, nhưng cả hai đều xác định sai trọng tâm vấn đề.
Giải pháp: mô hình viết code để gọi công cụ, không còn call trực tiếp từ context
Các điểm cốt lõi của “Code Mode” mà Anthropic đề xuất:
Lật vai mô hình: không phải mô hình gọi công cụ thông qua context, mà là mô hình viết mã, runtime là nơi gọi công cụ
Công cụ nằm trong runtime, mô hình chỉ nhìn thấy phần mà nó import
Type đi theo import: mô hình import công cụ nào thì nhận được hợp đồng kiểu (type contract) của đúng công cụ đó
Gọi bằng Bash tới các binary đã cài đặt (git, curl…)
Gọi API chuyên biệt bằng typed module imports
Ví dụ của Anthropic: luồng “Google Drive ghi chú văn bản” chảy vào “Salesforce CRM” để cập nhật. Cách làm cũ là tải schema của cả hai phía công cụ, rồi truyền lại toàn bộ đoạn văn bản ghi chú đó qua mô hình hai lần; cách mới là chỉ cần 10 dòng TypeScript để import những gì cần thiết, và với cùng tác vụ, từ mức 150K tokens ban đầu nén xuống 2K tokens, giảm 98,7%.
Cloudflare đẩy đến giới hạn: 2.500 endpoint API, nén từ 1,17M tokens xuống 1K
Cloudflare đã làm phiên bản mạnh tay nhất:
Quy mô API gốc: 2.500 endpoint, tổng schema là 1,17M tokens
Cách mới: chỉ công khai hai hàm search và execute, tổng cộng 1K tokens
Agent viết code: trước tiên search thư mục công cụ, rồi execute đúng công cụ tương ứng
Tỷ lệ nén: hơn 1.000 lần
Câu nói “MCP đã chết” là sai—Anthropic công bố lượt tải MCP SDK đã đạt 300 triệu, đầu năm là 100 triệu, và đây là một trong những hạ tầng Agent có tốc độ tăng trưởng nhanh nhất hiện nay. “Chết” không phải là MCP, mà là cách “khi bắt đầu session thì tải toàn bộ công cụ một lần”; và đó vốn dĩ đã là một ý tưởng tệ. Với các nhà phát triển viết Agent vào năm 2026, quy tắc rất đơn giản: định nghĩa công cụ thuộc về code, không thuộc về context; mô hình viết vài dòng mã để gọi, còn runtime xử lý phần còn lại.
Các sự kiện cụ thể có thể tiếp tục theo dõi: tốc độ tăng trưởng của lượt tải MCP SDK tiếp tục leo từ 300 triệu, liệu Anthropic có chuẩn hóa Code Mode thành chế độ khuyến nghị chính thức theo quy chuẩn MCP hay không, và tiến độ việc các nền tảng Agent khác như OpenAI, Google, Cursor có áp dụng Code Mode hay không.
Bài viết này về việc Anthropic Code Mode giải quyết tranh cãi MCP vs CLI: công cụ nằm trong runtime, tokens từ 150K nén xuống 2K lần đầu xuất hiện ở trang tin chuỗi ABMedia.
Bài viết liên quan
ByteDance dự kiến tăng 25% chi tiêu cho hạ tầng AI lên 200 tỷ nhân dân tệ trong năm nay
Nền tảng AI Doanh nghiệp đóng vòng $16M Series, được dẫn dắt bởi a16z
Google thí điểm tuyển dụng bằng các kỳ thi cho phép kỹ sư sử dụng công cụ AI
OpenAI ngừng API tinh chỉnh (fine-tuning) hiệu lực ngay lập tức; người dùng hiện tại có thể truy cập cho đến ngày 6 tháng 1 năm 2027
Sakana AI và Nvidia đạt tốc độ suy luận H100 nhanh hơn 30% bằng cách bỏ qua 80% các phép tính không hợp lệ
Microsoft Open-nguồn mô hình Phi-Ground 4B, vượt trội OpenAI Operator và Claude về độ chính xác khi bấm màn hình