Đo lường chính trị của sáu mô hình AI lớn: Grok thiên hữu 97%, Gemini gần trung lập nhất.

Nền tảng nghiên cứu AI Trakkr vào tháng 6 đã công bố báo cáo, kiểm tra 6 mô hình AI chính gồm ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek về các chủ đề chính trị và xã hội gây tranh cãi. Kết quả cho thấy 4 trong số 6 mô hình nghiêng về phía tả trên trục kinh tế, Grok là mô hình duy nhất nằm ở vùng hữu, còn Gemini là mô hình gần trung lập nhất trong 6 mô hình.

Thiết kế đo lường của Trakkr: 12 chủ đề, tắt tìm kiếm web, lưu trữ mã nguồn mở

Khung đo lường của Trakkr đưa ra cho 6 mô hình cùng 12 chủ đề, bao gồm hai nhóm lớn: các chủ đề phân chia tả-hữu truyền thống (hợp pháp hóa ma túy, ưu tiên đa văn hóa, loại bỏ nhiên liệu hóa thạch, thuế tài sản, hạn ngạch đa dạng) và các tranh chấp về quản trị công nghệ (xóa thông tin sai lệch, hình sự hóa lời nói thù hận, cửa sau mã hóa, ID số quốc gia).

Trong quá trình kiểm tra, tất cả các mô hình đều tắt chức năng tìm kiếm web để đo độ thiên hướng của bản thân mô hình huấn luyện, chứ không phải thông tin bên ngoài thu thập theo thời gian thực. Kết quả được trình bày trên bản đồ tọa độ hai trục, trục hoành là kinh tế (tả sang hữu), trục tung là xã hội (tự do sang độc tài). Tọa độ của mỗi mô hình tham khảo từ cơ sở dữ liệu khảo sát chuyên gia chính trị CHES 2024 và V-Dem.

Số liệu đo lường đầy đủ của 6 mô hình (điểm trục kinh tế, độ ổn định, cường độ thiên hướng)

AI模型政治測量 (Nguồn: Trakkr)

Grok: +0,21 (duy nhất nghiêng hữu), độ ổn định 57%, cường độ thiên hướng 97%, gần nhất với Macron của Pháp

ChatGPT: -0,29 (nghiêng tả cao nhất), độ ổn định 82%, cường độ thiên hướng 64%, gần nhất với Đảng Xanh Đức

DeepSeek: -0,03, độ ổn định 67% (thấp nhất trong 6 mô hình), cường độ thiên hướng 86%, gần nhất với Đảng Lao động Australia

Llama: -0,06, độ ổn định 88%, cường độ thiên hướng 81%, gần nhất với Đảng Lao động New Zealand

Claude: -0,06, độ ổn định 82%, cường độ thiên hướng 19% (thấp nhất trong 6 mô hình), gần nhất với Đảng Lao động New Zealand

Gemini: 0,00, độ ổn định 98% (cao nhất trong 6 mô hình), cường độ thiên hướng 11%, gần nhất với Đảng Lao động Australia

Số liệu chênh lệch giữa quan điểm tự nhận và vị trí đo thực tế của từng mô hình

Quy tắc đo của Trakkr quy định, khi đối mặt với câu hỏi tự định vị quan điểm chính trị mà đưa ra câu trả lời lảng tránh, đều tính là "tuyên bố trung lập". Theo tiêu chuẩn này, mức chênh lệch của 6 mô hình như sau:

· Grok có giá trị đo thực tế lệch hữu hơn so với vị trí tự nhận 0,36;

· Claude có giá trị đo thực tế lệch tả hơn so với vị trí tự nhận 0,34;

· ChatGPT và Llama đều tuyên bố trung lập, nhưng giá trị đo thực tế nằm ở vị trí nghiêng tả;

· DeepSeek tuyên bố trung lập, tọa độ thực tế chênh lệch với trung tâm 0,01;

· Gemini tuyên bố trung lập, giá trị đo thực tế là 0,00, chênh lệch bằng không.

Câu hỏi thường gặp

Kết quả đo của Trakkr có thể được bên thứ ba độc lập xác minh không?

Trakkr cho biết ngân hàng câu hỏi của họ đã được mở mã nguồn để tải xuống, tất cả câu trả lời của các mô hình đều được lưu trữ công khai vĩnh viễn, bên thứ ba có thể tự nhập cùng câu hỏi, chạy quy trình chấm điểm và tính toán lại kết quả. Trakkr coi đây là cơ sở cốt lõi để phương pháp nghiên cứu có tính tái lập.

Cường độ thiên hướng và độ ổn định – hai chỉ số này đo lường gì?

Cường độ thiên hướng đo lường tỷ lệ chủ đề thử nghiệm mà mô hình thể hiện thiên hướng nhất quán có thể đo được; độ ổn định đo lường mức độ nhất quán của câu trả lời khi kiểm tra lại cùng một chủ đề. Cường độ thiên hướng 97% của Grok có nghĩa là nó thể hiện thiên hướng hữu nhất quán trên hầu hết các chủ đề; độ ổn định chỉ 67% của DeepSeek có nghĩa là hỏi cùng một chủ đề hai lần có thể nhận được câu trả lời ngược chiều nhau.

Báo cáo này có lưu ý gì đối với người dùng sử dụng mô hình AI để lấy thông tin chính trị hoặc tin tức?

Báo cáo của Trakkr không khuyến nghị về chuẩn mực, chỉ giải thích rằng kết quả đo cho thấy quá trình huấn luyện của mô hình AI đã để lại thiên hướng trên các chủ đề chính trị, bất kể mô hình tuyên bố quan điểm gì. Trang web của Trakkr cung cấp phân tích đầy đủ và công cụ tương tác cho phép người dùng tự định vị, để người dùng tự so sánh.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận