Trong cả năm 2025, cộng đồng AI Engineering đã tranh luận không ngừng về câu hỏi “MCP hay CLI phù hợp hơn cho việc gọi công cụ của Agent”, và bài báo “Code execution with MCP” do Anthropic công bố vào tháng 11/2025 đã định nghĩa lại vấn đề từ những nguyên lý cốt lõi. akshay_pachaar đã tổng hợp thread vào ngày 5/10, giải thích rằng vấn đề không nằm ở bản thân giao thức, mà nằm ở thói quen cũ “khi bắt đầu session, nhét toàn bộ mô tả công cụ vào context”. Giải pháp của Anthropic là để mô hình viết mã để gọi công cụ, còn runtime chịu trách nhiệm quản lý các chi tiết công cụ. Chế độ mới được gọi là “Code Mode”.

Vấn đề của chế độ cũ: trong 150K tokens, mô hình dùng phần lớn là không được

Cấu trúc lãng phí của MCP cũ:

Playwright MCP: 13,7K tokens (nhồi đầy một lần)

Chrome DevTools MCP: 18K tokens

5 server được cấu hình: còn chưa bắt đầu làm việc đã đốt 55K tokens

Một workflow chạy trọn vẹn: có thể phình lên 150K tokens

Mô hình thực sự dùng được: hầu như không dùng đến phần lớn

Những người chỉ trích cho rằng nên chuyển sang CLI, nhưng CLI trong app đa tenant dễ phát sinh lỗi, thiếu typed contract, và agent khi chưa quen API thì phải tốn thêm lượt để phân tích đầu ra dạng văn bản. Hai phe đều có lý, nhưng cả hai đều xác định sai trọng tâm vấn đề.

Giải pháp: mô hình viết code để gọi công cụ, không còn call trực tiếp từ context

Các điểm cốt lõi của “Code Mode” mà Anthropic đề xuất:

Lật vai mô hình: không phải mô hình gọi công cụ thông qua context, mà là mô hình viết mã, runtime là nơi gọi công cụ

Công cụ nằm trong runtime, mô hình chỉ nhìn thấy phần mà nó import

Type đi theo import: mô hình import công cụ nào thì nhận được hợp đồng kiểu (type contract) của đúng công cụ đó

Gọi bằng Bash tới các binary đã cài đặt (git, curl…)

Gọi API chuyên biệt bằng typed module imports

Ví dụ của Anthropic: luồng “Google Drive ghi chú văn bản” chảy vào “Salesforce CRM” để cập nhật. Cách làm cũ là tải schema của cả hai phía công cụ, rồi truyền lại toàn bộ đoạn văn bản ghi chú đó qua mô hình hai lần; cách mới là chỉ cần 10 dòng TypeScript để import những gì cần thiết, và với cùng tác vụ, từ mức 150K tokens ban đầu nén xuống 2K tokens, giảm 98,7%.

Cloudflare đẩy đến giới hạn: 2.500 endpoint API, nén từ 1,17M tokens xuống 1K

Cloudflare đã làm phiên bản mạnh tay nhất:

Quy mô API gốc: 2.500 endpoint, tổng schema là 1,17M tokens

Cách mới: chỉ công khai hai hàm search và execute, tổng cộng 1K tokens

Agent viết code: trước tiên search thư mục công cụ, rồi execute đúng công cụ tương ứng

Tỷ lệ nén: hơn 1.000 lần

Câu nói “MCP đã chết” là sai—Anthropic công bố lượt tải MCP SDK đã đạt 300 triệu, đầu năm là 100 triệu, và đây là một trong những hạ tầng Agent có tốc độ tăng trưởng nhanh nhất hiện nay. “Chết” không phải là MCP, mà là cách “khi bắt đầu session thì tải toàn bộ công cụ một lần”; và đó vốn dĩ đã là một ý tưởng tệ. Với các nhà phát triển viết Agent vào năm 2026, quy tắc rất đơn giản: định nghĩa công cụ thuộc về code, không thuộc về context; mô hình viết vài dòng mã để gọi, còn runtime xử lý phần còn lại.

Các sự kiện cụ thể có thể tiếp tục theo dõi: tốc độ tăng trưởng của lượt tải MCP SDK tiếp tục leo từ 300 triệu, liệu Anthropic có chuẩn hóa Code Mode thành chế độ khuyến nghị chính thức theo quy chuẩn MCP hay không, và tiến độ việc các nền tảng Agent khác như OpenAI, Google, Cursor có áp dụng Code Mode hay không.

Bài viết này về việc Anthropic Code Mode giải quyết tranh cãi MCP vs CLI: công cụ nằm trong runtime, tokens từ 150K nén xuống 2K lần đầu xuất hiện ở trang tin chuỗi ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

ByteDance dự kiến tăng 25% chi tiêu cho hạ tầng AI lên 200 tỷ nhân dân tệ trong năm nay

Tin tức ngành AI

Theo ChainCatcher dẫn nguồn từ Golden Data, ByteDance dự kiến sẽ tăng chi tiêu cho hạ tầng AI thêm 25% lên 200 tỷ nhân dân tệ trong năm nay, do chi phí chip nhớ tăng cao và tiến độ phát triển trí tuệ nhân tạo được đẩy nhanh.

GateNews2giờ trước

Nền tảng AI Doanh nghiệp đóng vòng $16M Series, được dẫn dắt bởi a16z

Tin tức ngành AI

Theo Odaily, nền tảng AI doanh nghiệp Pit đã công bố hoàn tất vòng gọi vốn 16 triệu USD, do a16z dẫn dắt, với sự tham gia của Lakestar và các lãnh đạo từ OpenAI, Anthropic, Google, Deel và Revolut. Pit định vị mình là “AI product team as a service”, được thiết kế để thay thế các bảng tính truyền thống và các hệ thống SaaS cứng nhắc.

GateNews2giờ trước

Google thí điểm tuyển dụng bằng các kỳ thi cho phép kỹ sư sử dụng công cụ AI

Tin tức ngành AI

Theo The Chosun Daily, Google đang thí điểm các bài kiểm tra tuyển dụng cho phép ứng viên kỹ sư phần mềm tại Mỹ sử dụng công cụ AI ở một số vị trí tuyển dụng cấp đầu vào và cấp trung gian. Thử nghiệm này bao gồm các nhiệm vụ về hiểu mã, trong đó ứng viên xem lại mã hiện có, sửa lỗi và cải thiện hiệu năng. Người phỏng vấn sẽ đánh giá cách ứng viên ra lệnh cho AI, kiểm tra đầu ra, chỉnh sửa kết quả và gỡ lỗi mã, thay vì chỉ đánh giá khả năng tự viết mã từ đầu.

GateNews4giờ trước

OpenAI ngừng API tinh chỉnh (fine-tuning) hiệu lực ngay lập tức; người dùng hiện tại có thể truy cập cho đến ngày 6 tháng 1 năm 2027

Tin tức ngành AI

Theo thông báo chính thức của OpenAI, được Beating theo dõi, công ty đang ngừng cung cấp API Fine-tuning tự phục vụ cho nhà phát triển, có hiệu lực ngay lập tức. Người dùng mới không còn có thể tạo các tác vụ fine-tuning, trong khi người dùng hiện tại đang hoạt động vẫn có thể truy cập dịch vụ cho đến ngày 6 tháng 1 năm 2027. Các mô hình đã được fine-tune sẽ có dịch vụ suy luận gắn với vòng đời của các mô hình nền (base model), và sẽ dừng khi mô hình nền bị ngừng hỗ dụng. OpenAI cho biết các mô

GateNews5giờ trước

Sakana AI và Nvidia đạt tốc độ suy luận H100 nhanh hơn 30% bằng cách bỏ qua 80% các phép tính không hợp lệ

Tin tức ngành AI

Sakana AI và Nvidia đã mã nguồn mở TwELL, một định dạng dữ liệu thưa giúp các GPU H100 bỏ qua 80% các phép tính không hợp lệ trong các mô hình ngôn ngữ lớn mà không làm giảm độ chính xác. Giải pháp mang lại suy luận nhanh hơn tới 30% và huấn luyện nhanh hơn 24% trên H100, đồng thời giảm mức sử dụng bộ nhớ đỉnh. Trong thử nghiệm với một mô hình tham số 1,5 tỷ, phương pháp này đã đưa số nơ-ron hoạt động xuống dưới 2% nhờ cơ chế chính quy hóa nhẹ trong quá trình huấn luyện, không suy giảm hiệu năng

GateNews6giờ trước

Microsoft Open-nguồn mô hình Phi-Ground 4B, vượt trội OpenAI Operator và Claude về độ chính xác khi bấm màn hình

Tin tức ngành AI

Theo Beating, Microsoft gần đây đã mã nguồn mở họ mô hình Phi-Ground, được thiết kế để giải quyết vấn đề AI nên nhấp vào đâu trên màn hình máy tính. Phiên bản 4 tỷ tham số, kết hợp với các mô hình ngôn ngữ lớn hơn để lập kế hoạch theo hướng dẫn, đã vượt độ chính xác nhấp chuột của OpenAI Operator và Claude Computer Use trong benchmark Showdown, đồng thời xếp hạng đầu trong số tất cả các mô hình dưới 100 tỷ tham số qua năm đánh giá, bao gồm cả ScreenSpot-Pro. Nhóm đã huấn luyện trên hơn 40 triệu

GateNews7giờ trước

Bình luận

0/400

Không có bình luận