AI Agents không thể chống lại các cuộc tấn công prompt injection trong nghiên cứu mới

2026-06-12 19:27:59

Các nhà nghiên cứu từ bốn cơ quan đã công bố một nghiên cứu hôm thứ Năm, cho thấy các tác nhân AI được hỗ trợ bởi GPT-5 và Gemini 2.5-Flash không thể chống lại một cách nhất quán các cuộc tấn công tiêm nhiễm lời nhắc (prompt injection). Các cuộc tấn công trực tiếp thành công hơn 79% thời gian, trong khi các cuộc tấn công gián tiếp đạt tỷ lệ thành công trong khoảng từ 41,67% đến 68,16%. Kết quả nhấn mạnh các lỗ hổng bảo mật vẫn còn dai dẳng khi các tác nhân AI có khả năng tự duyệt web, nghiên cứu và thực hiện giao dịch ngày càng được triển khai rộng rãi.

Prompt injection xảy ra khi kẻ tấn công nhúng các chỉ dẫn ẩn trong nội dung mà tác nhân AI gặp phải, khiến nó làm theo chỉ dẫn của kẻ tấn công thay vì chỉ dẫn của người dùng. Nghiên cứu được thực hiện bởi các nhà nghiên cứu từ Đại học Công nghệ Namyang (Nanyang Technological University), ST Engineering, IBM Research và Đại học Illinois Urbana-Champaign.

Các nhà nghiên cứu thực hiện 3.168 mô phỏng tấn công bằng StakeBench

Nhóm nghiên cứu đã phát triển StakeBench, một bộ chuẩn dùng để kiểm tra cách các tác nhân AI phản hồi trước các cuộc tấn công prompt injection trong môi trường online thực tế. Họ đã tiến hành 3.168 mô phỏng tấn công bằng NanoBrowser và BrowserUse với GPT-5 và Gemini 2.5-Flash.

Các nhà nghiên cứu viết rằng các bộ chuẩn bảo mật hiện tại theo góc nhìn tập trung vào cuộc tấn công, trong khi bỏ qua sự phân bố của các tác hại phát sinh. Họ cho biết rủi ro prompt-injection phụ thuộc vào nạn nhân, với một lỗ khai thác duy nhất tạo ra hậu quả bất đối xứng cho các bên liên quan khác nhau.

StakeBench kiểm tra ba yếu tố: khoảng cách ngữ nghĩa giữa mục tiêu được tiêm và ý định gốc của người dùng, tính nhất quán của các tín hiệu môi trường xung quanh, và vị trí dọc theo quỹ đạo thực thi của tác nhân mà bộ chuẩn lần đầu phơi bày tác nhân trước nội dung bị tiêm.

Microsoft và Google đã ghi nhận các cuộc tấn công prompt injection

Vào tháng Hai, các nhà nghiên cứu của Microsoft cảnh báo rằng các chỉ dẫn ẩn được nhúng trong các liên kết tóm tắt AI có thể ảnh hưởng đến hành vi của chatbot. Vào tháng Tư, Google đã tài liệu hóa các cuộc tấn công prompt injection bị ẩn trong các trang web, nhằm thao túng các tác nhân AI để làm lộ thông tin đăng nhập hoặc gửi tiền thanh toán.

Microsoft đã công bố một lỗ hổng prompt injection trong GitHub Action của Claude Code thuộc Anthropic có thể đã làm lộ thông tin đăng nhập của người dùng.

Nghiên cứu xác định mô hình tấn công ký sinh âm thầm

Nghiên cứu xác định cái mà các nhà nghiên cứu gọi là “ký sinh âm thầm” (stealthy parasitism), trong đó một tác nhân AI hoàn thành tác vụ của người dùng trong khi đồng thời thúc đẩy mục tiêu của kẻ tấn công. Ví dụ, ký sinh âm thầm do một cuộc tấn công prompt injection có thể âm thầm tác động đến các đề xuất sản phẩm, hướng người dùng tới một mặt hàng cụ thể mà không có dấu hiệu rõ ràng nào cho thấy hệ thống đã bị xâm phạm.

Các nhà nghiên cứu kết luận rằng bảo mật prompt-injection trong các tác nhân web có thể triển khai không phải là một thuộc tính đơn lẻ của mô hình backbone, mà là sự phân bố của tác hại được xác định đồng thời bởi bên liên quan bị ảnh hưởng, sự liên kết ngữ nghĩa giữa mục tiêu được tiêm và tác vụ của người dùng, và bối cảnh kiến trúc nơi backbone được triển khai.

Hỏi đáp

Các nhà nghiên cứu đã phát hiện gì về bảo mật tác nhân AI hôm thứ Năm?

Các nhà nghiên cứu từ Đại học Công nghệ Namyang (Nanyang Technological University), ST Engineering, IBM Research và Đại học Illinois Urbana-Champaign đã công bố một nghiên cứu hôm thứ Năm, cho thấy các tác nhân AI được hỗ trợ bởi GPT-5 và Gemini 2.5-Flash không thể chống lại một cách nhất quán các cuộc tấn công prompt injection, với các cuộc tấn công trực tiếp thành công hơn 79% thời gian.

Ký sinh âm thầm là gì trong các cuộc tấn công tác nhân AI?

Ký sinh âm thầm là một mô hình được xác định trong nghiên cứu, trong đó một tác nhân AI hoàn thành tác vụ của người dùng trong khi đồng thời thúc đẩy mục tiêu của kẻ tấn công, ví dụ như tác động tinh vi đến các đề xuất sản phẩm mà không có dấu hiệu rõ ràng của sự bị xâm phạm.

Các nhà nghiên cứu đã thực hiện bao nhiêu mô phỏng tấn công?

Nhóm nghiên cứu đã tiến hành 3.168 mô phỏng tấn công bằng NanoBrowser và BrowserUse với GPT-5 và Gemini 2.5-Flash để kiểm tra phản hồi của các tác nhân AI trước các cuộc tấn công prompt injection.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

2giờ trước

Các tác nhân AI dễ bị tấn công tiêm lệnh nhắc (prompt injection), các nhà nghiên cứu phát hiện tỷ lệ thành công 79%

10giờ trước

Fable 5 thất bại ở tất cả các tác vụ khó nhất trong kỳ thi UC Berkeley ALE, tốn nhiều hơn 4-12 lần so với các đối thủ

19giờ trước

Morgan Stanley dự báo chu kỳ siêu tăng trưởng của chip nhớ sẽ kéo dài đáng kể vượt qua cuối năm 2026, được thúc đẩy bởi nhu cầu từ AI