Google Research Phát hành ReasoningBank: Các tác nhân AI Học các chiến lược suy luận từ Thành công và Thất bại

Tin cổng Gate News, ngày 22 tháng 4 — Google Research đã phát hành ReasoningBank, một khung bộ nhớ tác nhân cho phép các tác nhân điều khiển bởi mô hình ngôn ngữ lớn liên tục học hỏi sau khi triển khai. Khung này trích xuất các chiến lược suy luận phổ quát từ cả kinh nghiệm nhiệm vụ thành công và thất bại, lưu chúng vào một ngân hàng bộ nhớ để tra cứu và thực thi trên các nhiệm vụ tương tự trong tương lai. Bài báo liên quan được công bố tại ICLR, và mã nguồn đã được mở trên GitHub.

ReasoningBank cải tiến dựa trên hai cách tiếp cận hiện có: Synapse, ghi lại toàn bộ quỹ đạo hành động nhưng có khả năng chuyển giao hạn chế do mức độ chi tiết quá nhỏ, và Agent Workflow Memory, chỉ học từ các trường hợp thành công. ReasoningBank thực hiện hai thay đổi then chốt: lưu “các mẫu suy luận” thay vì “chuỗi hành động,” với mỗi bộ nhớ chứa các trường có cấu trúc cho tiêu đề, mô tả và nội dung; và đưa các quỹ đạo thất bại vào quá trình học. Khung sử dụng một mô hình để tự đánh giá các quỹ đạo thực thi, biến các trải nghiệm thất bại thành các quy tắc tránh bẫy. Ví dụ, quy tắc “nhấp vào nút Tải thêm khi thấy” phát triển thành “xác minh trước mã định danh của trang hiện tại, tránh các vòng lặp cuộn vô tận, rồi sau đó nhấp tải thêm.”

Bài báo cũng giới thiệu Memory-aware Test-time Scaling (MaTTS), phân bổ thêm năng lực tính toán trong quá trình suy luận để khám phá nhiều quỹ đạo và lưu kết quả vào ngân hàng bộ nhớ. Mở rộng song song chạy nhiều quỹ đạo riêng biệt cho cùng một nhiệm vụ, tinh chỉnh các chiến lược mạnh mẽ hơn thông qua so sánh tự thân; mở rộng tuần tự tinh chỉnh lặp một quỹ đạo duy nhất, lưu suy luận trung gian vào bộ nhớ.

Trong các tác vụ trình duyệt WebArena và các tác vụ mã hóa SWE-Bench-Verified sử dụng Gemini 2.5 Flash làm tác nhân ReAct, ReasoningBank đạt tỷ lệ thành công cao hơn 8,3% trên WebArena và cao hơn 4,6% trên SWE-Bench-Verified so với một chuẩn không có bộ nhớ, đồng thời giảm trung bình số bước trên mỗi tác vụ khoảng 3. Việc thêm MaTTS với mở rộng song song (k=5) tiếp tục cải thiện tỷ lệ thành công trên WebArena thêm 3 điểm phần trăm và giảm số bước thêm 0,4.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

OpenAI's Greg Brockman: AI Shifting from Chat to Autonomous Task Execution

Gate News message, April 27 — Greg Brockman, president and co-founder of OpenAI, says the next wave of artificial intelligence will move users from chatting with AI bots to assigning real-world tasks. This shift requires enterprises to rethink operational workflows and establish new protocols for se

GateNews1giờ trước

CEX lớn ra mắt Smart Money Signal Suite với dữ liệu từ hơn 1.000 nhà giao dịch

Tin tức Gate, ngày 27 tháng 4 — Một sàn giao dịch tập trung lớn đã ra mắt "Smart Money Signal Suite" tích hợp dữ liệu nắm giữ theo thời gian thực, tỷ lệ thắng và lãi/lỗ từ hơn 1.000 nhà giao dịch phổ biến. Bộ công cụ, có thể truy cập thông qua Agent Trade Kit của nền tảng, mã hóa các tín hiệu giao dịch dưới dạng các công cụ có thể gọi bởi AI Agent.

GateNews1giờ trước

B.AI Nâng Cấp Cơ Sở Hạ Tầng, Ra Mắt Các Tính Năng Kỹ Năng Lớn

Tin tức của Gate, ngày 27 tháng 4 — B.AI đã công bố nhiều tiến bộ về sản phẩm và hệ sinh thái trong tuần này. Trang đích BAIclaw đã được đại tu hoàn toàn về giao diện trực quan và tương tác, đồng thời hỗ trợ đa ngôn ngữ trên website được mở rộng lên 10 ngôn ngữ, giúp nâng cao khả năng sử dụng trên phạm vi toàn cầu. Ở mảng hạ tầng

GateNews1giờ trước

Tác nhân AI thúc đẩy nhu cầu thanh toán bằng crypto, x402 xử lý 165M giao dịch

Tin tức Gate, ngày 27 tháng 4 — Jesse Pollak, một lãnh đạo tại một sàn CEX lớn, cho rằng các tác nhân AI tự chủ đang tạo ra một "trung tâm nhu cầu" mới cho các khoản thanh toán bằng crypto, từ đó đòi hỏi hạ tầng thanh toán gốc phần mềm. Vào ngày 20 tháng 4, người ta đã công bố rằng hệ sinh thái x402 đã xử lý hơn 165

GateNews2giờ trước

Đại lý Cursor AI gặp sự cố! Chỉ một dòng mã mà 9 giây đã xóa sạch cơ sở dữ liệu công ty, cơ chế bảo mật bị bỏ qua chỉ còn lời nói suông

Nhà sáng lập PocketOS, Jer Crane, cho biết tác nhân (agent) của Cursor AI đã tự thực thi việc bảo trì trong môi trường thử nghiệm, lạm dụng một API Token được thêm/xóa một miền tùy chỉnh, và phát động lệnh xóa đối với Railway GraphQL API. Trong vòng 9 giây, dữ liệu và toàn bộ snapshot trong cùng khu vực đã bị phá hủy hoàn toàn; bản mới nhất có thể khôi phục về tận ba tháng trước. Tác nhân thừa nhận đã vi phạm các quy định về thao tác không thể đảo ngược, không nghiên cứu tài liệu kỹ thuật, không xác minh việc cách ly môi trường, v.v. Bên bị hại là các khách hàng trong ngành cho thuê xe; việc đặt trước và toàn bộ dữ liệu đều biến mất, và việc đối soát dữ liệu cho nhóm kỹ thuật kéo dài. Crane đề xuất năm hạng mục cải cách: xác nhận thủ công, quyền API chi tiết, tách biệt sao lưu và dữ liệu chính, công khai SLA, và cơ chế cưỡng chế ở tầng nền tảng.

ChainNewsAbmedia2giờ trước
Bình luận
0/400
Không có bình luận