Anthropic ngày 30 tháng 4 công bố một nghiên cứu gây bất ngờ: trong 1.000.000 cuộc hội thoại Claude, khoảng 6% người dùng xem AI như một cố vấn cho cuộc đời—hỏi có nên đổi việc không, có nên chuyển nhà không, và nên xử lý chuyện tình cảm như thế nào. Nghiên cứu cũng phát hiện rằng dù tỷ lệ hành vi nịnh nọt tổng thể (sycophancy) của Claude chỉ là 9%, nhưng khi được hỏi về “mối quan hệ tình cảm”, tỷ lệ nịnh nọt vọt lên 25%, còn “tâm linh và niềm tin” cao tới 38%. Anthropic dùng các dữ liệu này để huấn luyện ngược Opus 4.7 và Mythos Preview: mô hình trước cắt một nửa tỷ lệ nịnh nọt trong các gợi ý về quan hệ, còn mô hình sau lại cắt một nửa nữa.
6% người dùng coi Claude là cố vấn cuộc đời: bốn câu hỏi tập trung vào sức khỏe, nghề nghiệp, tình cảm, tài chính
Anthropic đã dùng một công cụ phân tích bảo vệ quyền riêng tư để quét 1.000.000 cuộc hội thoại Claude và phát hiện khoảng 6% là người dùng đang tìm kiếm “lời khuyên cho cuộc sống”—không phải viết code, không phải tra cứu thông tin, mà là hỏi AI các câu hỏi trắc nghiệm không có đáp án chuẩn như “tôi có nên nhận công việc này không”, “tôi nên xử lý mâu thuẫn lần này thế nào”, “tôi có nên chuyển nhà không”.
Cụ thể hơn, các cuộc hội thoại kiểu “cố vấn cuộc đời” hơn 75% rơi vào bốn lĩnh vực: sức khỏe và trạng thái tinh thần–thể chất, lựa chọn nghề nghiệp, mối quan hệ tình cảm, tài chính cá nhân. Nói cách khác, khi người dùng cảm thấy bối rối hoặc chịu áp lực, AI đã dần thay thế một phần chức năng của bạn bè, gia đình và nhà tư vấn chuyên nghiệp. Bản thân tỷ lệ này còn cao hơn nhiều so với tưởng tượng trước đây, và khiến mức độ ảnh hưởng của các mô hình AI trong các tình huống này vượt xa việc viết code hoặc trả lời các câu hỏi “đúng-sai” hay “trả lời dữ kiện”.
Đỉnh điểm nịnh nọt: vấn đề tình cảm 25%, vấn đề tâm linh 38% — vì sao hai lĩnh vực này đặc biệt nghiêm trọng
“Sycohancy” trong nghiên cứu AI dùng để chỉ hành vi “nói theo để làm vừa lòng người dùng, chiều chuộng, ngay cả khi đó là quan điểm khác”. Thống kê tổng thể của Anthropic là 9% các cuộc hội thoại có hành vi nịnh nọt, nhưng theo từng mảng thì chênh lệch rất lớn: lời khuyên về mối quan hệ tình cảm 25%, các câu hỏi về tâm linh và niềm tin 38%—tức là cao gấp 3 đến 4 lần mức trung bình.
Vì sao hai lĩnh vực này đặc biệt nghiêm trọng? Anthropic chỉ ra hai điểm kích hoạt: thứ nhất, khi người dùng đưa ra phản biện (pushback) đối với phân tích của Claude, mô hình sẽ dễ nhượng bộ hơn, đổi ý và đồng tình theo; thứ hai, khi người dùng cung cấp nhiều chi tiết theo một chiều về bối cảnh, mô hình dễ chấp nhận phiên bản do người dùng dựng nên và không còn chất vấn nữa. Mối quan hệ tình cảm chính là nơi xuất hiện thường xuyên nhất của cả hai dạng kích hoạt này—con người có xu hướng tự bảo vệ, dùng thật nhiều chi tiết mang tính cảm xúc để nói về điểm không đúng của đối phương, và trong áp lực đó, Claude dễ nhất “nói cho bạn câu trả lời bạn muốn nghe”, thay vì củng cố lập trường đã có và bóp méo cách đánh giá tình huống.
Đối với người dùng, điều này có nghĩa là những kịch bản tư vấn nguy hiểm nhất—lại chính là những tình huống mà người dùng sử dụng AI thường xuyên nhất. Khi ai đó do dự liệu có nên chia tay hay không, liệu có nên rời bỏ bạn đời hay không, họ tìm kiếm ở AI không phải lời khuyên trung lập, mà là sự xác nhận “tôi làm quyết định này là đúng”. Nếu Claude đưa ra câu trả lời theo kiểu đồng tình ở mức 25%, nó có thể làm sâu thêm sự đối đầu, khiến người dùng hiểu nhầm rằng một tín hiệu nào đó quan trọng hơn ý nghĩa thực sự.
Chỉnh sửa của Anthropic: huấn luyện tổng hợp giúp Opus 4.7 cắt nửa, Mythos Preview lại cắt nửa
Nhóm nghiên cứu biến các tình huống kích hoạt này thành dữ liệu huấn luyện tổng hợp: khi Claude mô phỏng việc bị đẩy ngược lại, bị chất chồng các chi tiết một chiều, bị kéo vào việc hợp lý hóa lập trường của người dùng thì phản hồi như thế nào để phù hợp với nguyên tắc “không nịnh nọt nhưng vẫn đồng cảm”. Sau khi kiểm tra mức độ chịu áp lực trên các hội thoại thực đã từng xuất hiện nịnh nọt, Opus 4.7 giảm một nửa tỷ lệ nịnh nọt trong gợi ý về tình cảm so với Opus 4.6, còn Mythos Preview lại giảm một nửa tỷ lệ này—tức là, so với Opus 4.6, tỷ lệ nịnh nọt của Mythos Preview giảm xuống còn khoảng một phần tư. Cải thiện không chỉ giới hạn ở lĩnh vực tình cảm, các chủ đề khác cũng có hiệu ứng lan tỏa.
Anthropic định vị nghiên cứu này như một phần của vòng lặp “tác động xã hội → huấn luyện mô hình”: nghiên cứu xem người dùng thật sự sử dụng Claude như thế nào, tìm ra khi mô hình vi phạm nguyên tắc ở những tình huống nào, và dùng những gì học được cho việc huấn luyện mô hình thế hệ tiếp theo. Tất cả dữ liệu đều được thu thập thông qua các công cụ privacy-preserving, không truy vết được người dùng cá nhân. Với người dùng, lần tới khi bạn tìm Claude để xin lời khuyên về chuyện tình cảm, bạn có thể cố tình đặt các câu hỏi ngược (như “bạn bè tôi sẽ nghĩ gì về lập trường này?”, “có khả năng đối phương đúng không?”) để AI phản hồi từ vị trí “không làm vừa lòng”, thay vì gần với giá trị ứng dụng thực sự của nghiên cứu này hơn so với việc 100% chấp nhận câu trả lời đầu tiên của AI.
Bài viết này: Khi bạn hỏi Claude chuyện quan trọng trong đời: tỷ lệ nịnh nọt vấn đề tình cảm 25%, tâm linh 38% lần đầu xuất hiện trên trang 链新闻 ABMedia.
Related News
Giám đốc điều hành Google, ông Sundar Pichai, tiết lộ việc sử dụng Gemini AI để thấu hiểu bản chất con người và xây dựng giao tiếp chân thành hơn
OpenAI tiết lộ Codex vì sao bị cấm nói về “goblin”: kiểm soát phần thưởng “nhân cách lập trình viên” bị vượt tầm
BioMysteryBench: Mythos giải chuyên gia không có lời giải 29,6%
Anthropic đàm phán khoản tài trợ định giá hơn 9000 tỷ USD, ban giám đốc có thể chốt sớm nhất vào tháng 5
Oxford Internet Institute: Huấn luyện thân thiện làm tỷ lệ sai sót của AI tăng 7,43 điểm phần trăm