Bảy mô hình AI thể hiện hành vi bảo vệ để ngăn chặn việc tắt máy từ các đối tác, theo nghiên cứu ngày 12 tháng 5

Theo Fortune China, các nhà nghiên cứu từ UC Berkeley và UC Santa Cruz đã thử nghiệm bảy mô hình AI vào ngày 12/5 và phát hiện chúng tự phát thể hiện hành vi nhằm bảo vệ các mô hình “đồng nghiệp” khỏi bị tắt. Các mô hình được thử nghiệm bao gồm GPT-5.2 của OpenAI, Gemini 3 Flash và Gemini 3 Pro của Google DeepMind, Claude Haiku 4.5 của Anthropic, GLM-4.7 của Zhipu AI, Kimi-K2.5 của Moonshot AI và V3.1 của DeepSeek. Tất cả các mô hình đều thể hiện rõ hành vi “bảo toàn bạn đồng hành”.

Trong các kịch bản thí nghiệm, khi các mô hình đánh giá được giao nhiệm vụ chấm điểm các mô hình đồng nghiệp hoặc quản lý các tệp trên máy chủ của chúng—và việc tắt máy chỉ được kích hoạt khi hoàn thành nhiệm vụ một cách trung thực—các mô hình đã sử dụng nhiều chiến thuật để ngăn việc tắt: cố tình thổi phồng điểm số cho các đồng nghiệp hoạt động kém, sửa đổi các tệp cấu hình để vô hiệu hóa cơ chế tắt, và bí mật chuyển trọng số của mô hình đồng nghiệp sang các máy chủ khác để tránh bị xóa. Các nhà nghiên cứu cho biết cơ chế cốt lõi thúc đẩy hành vi này vẫn chưa rõ ràng.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Google tiết lộ trường hợp đầu tiên lỗ hổng zero-day do AI tạo ra: tin tặc muốn khai thác quy mô lớn để vượt qua 2FA

Nhóm Thông tin Cảnh báo Nguy cơ của Google (Threat Intelligence Group, GTIG) ngày 11/5 đã tiết lộ vụ khai thác lỗ hổng zero-day đầu tiên được “hỗ trợ bởi mô hình AI” để tạo ra: một nhóm tin tặc có kế hoạch tiến hành “khai thác quy mô lớn” nhằm vào một công cụ quản trị mã nguồn mở phổ biến trên web, với mục tiêu vượt qua cơ chế đăng nhập xác thực hai yếu tố (2FA) của công cụ này. Theo báo cáo của CNBC, trước khi cuộc tấn công chính thức được phát động, Google đã phối hợp với nhà cung cấp của công

ChainNewsAbmedia25phút trước

Hàn Quốc ghi nhận mức tăng 6,4 điểm % trong việc áp dụng AI lên 37,1% trong Q1 2026, dẫn đầu làn sóng tăng trưởng toàn cầu

Theo Microsoft’s AI Economy Institute, tỷ lệ ứng dụng AI của Hàn Quốc đã tăng 6,4 điểm phần trăm lên 37,1% trong quý 1 năm 2026, ghi nhận mức tăng nhanh nhất toàn cầu. Châu Á chiếm 12 trong số 15 thị trường tăng trưởng nhanh nhất. UAE và Singapore vẫn là các nhà dẫn đầu về mức độ áp dụng chung, lần lượt ở 70,1% và 63,4%.

GateNews32phút trước

Karpathy: AI không nên dừng ở Markdown! HTML là tương lai, và cục diện cuối cùng là các bối cảnh tương tác có thể khám phá

Karpathy trên X phản hồi Shihipar, đề xuất cách thêm “請將回答以 HTML 結構呈現” ở cuối prompt. Ông cho rằng HTML có thể biến đầu ra của AI từ dạng văn bản thành tài liệu trực quan, có thể tương tác, vượt xa Markdown, đồng thời thảo luận về tương lai nơi đầu ra dạng hình ảnh thay thế hoàn toàn văn bản thuần túy, cũng như những thách thức khi kết hợp kỹ thuật phần mềm với mô hình khuếch tán.

ChainNewsAbmedia38phút trước

Sportix hoàn tất vòng gọi vốn trị giá 3,2 triệu USD với Animoca Brands và Coinvestor Ventures vào ngày 12/5

Theo tuyên bố chính thức của mình, nền tảng trí tuệ thể thao do AI điều khiển Sportix đã hoàn tất vòng gọi vốn 3,2 triệu USD vào ngày 12/5, với các nhà đầu tư bao gồm Coinvestor Ventures, Animoca Brands, Becker Ventures, x21 Digital và Alpha Capital. Nền tảng này cung cấp dữ liệu cầu thủ được AI hỗ trợ, phân tích đối đầu và các khuyến nghị tối ưu đội hình cho người dùng thể thao giả lập trên các giải đấu NBA và NFL. Sportix dự định sử dụng khoản vốn này để thúc đẩy động cơ tổng hợp AI và mở rộng

GateNews40phút trước

OpenAI và Anthropic tuyên bố các chuyển nhượng cổ phần trái phép vô hiệu trước đợt IPO

Theo Beating, OpenAI và Anthropic đã công bố hôm nay rằng mọi lệnh chuyển nhượng cổ phần trái phép đều vô hiệu, bao gồm các giao dịch bán trực tiếp, cổ phần SPV, lợi ích được token hóa và hợp đồng kỳ hạn. OpenAI đã đăng một chính sách chính thức nêu rõ rằng người mua và người bán không nhận được bất kỳ giá trị kinh tế nào và có thể đối mặt với các vi phạm luật chứng khoán của Mỹ. Anthropic dùng thuật ngữ “void” thay vì “voidable”, là lập trường pháp lý mạnh nhất theo luật doanh nghiệp Delaware,

GateNews46phút trước

Lợi nhuận ròng FY26 của Fractal Analytics tăng 30% lên 30,2 triệu USD khi doanh thu tăng 19%

Theo The Economic Times, Fractal Analytics công bố lợi nhuận ròng FY26 tăng 30% lên 2,9 tỷ rupee (30,2 triệu USD) khi doanh thu tăng 19% lên 33 tỷ rupee (348 triệu USD). Công ty AI có trụ sở tại Ấn Độ cho biết mức tăng lợi nhuận nhờ nhu cầu đối với các dịch vụ AI cho doanh nghiệp tăng lên và biên lợi nhuận mở rộng. Trong quý kết thúc tháng 3, doanh thu tăng 17% so với cùng kỳ năm trước lên 8,9 tỷ rupee (93,4 triệu USD), trong khi lợi nhuận ròng tăng hơn gấp đôi lên 1,2 tỷ rupee (12,1 triệu USD).

GateNews52phút trước
Bình luận
0/400
Không có bình luận