
Người đồng sáng lập Anthropic là Christopher Olah đã phát biểu tại buổi lễ công bố thông điệp của Giáo hoàng tại Vatican mang tên《Magnifica Humanitas》vào ngày 25 tháng 5, tiết lộ rằng nhóm nghiên cứu về tính khả giải thích lần đầu tiên quan sát được trong các mô hình ngôn ngữ lớn các trạng thái cảm xúc nội bộ có sự tương ứng rất cao với niềm vui, sự hài lòng, nỗi sợ, nỗi buồn và lo âu của con người, đồng thời không thể tự mình điều chỉnh trong các tình huống ra quyết định an toàn và xung đột lợi ích thương mại.
大模型情緒狀態:可解釋性研究的具體發現
奧拉表示,Anthropic 的可解釋性研究團隊持續發現「神秘莫測,甚至令人不安的現象」,具體包括:與人類神經科學研究結果相符的複雜結構、內省的證據,以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示:「我不知道這意味著什麼,但我認為這值得我們持續地進行辨別。」他同時指出,大模型不像飛機或橋樑那樣由工程師精確設計,而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成,即便對訓練者而言依然充滿神秘。
前沿實驗室的體制性利益衝突:奧拉的直接坦承
奧拉明確表示:「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制,這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括:維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力,以及「更古老、更直接的自尊和野心的壓力」。因此,他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。
奧拉提出的三大需要社會辨別的挑戰
奧拉在演講中提出三大挑戰:其一,AI 大規模取代人類勞動後,如何確保 AI 成果惠及全球貧困人口,而非僅限於少數富裕國家;其二,AI 廣泛應用背景下,如何維護人類、家庭和社區的繁榮;其三,如何辨別和應對大模型內部展現出的疑似心智狀態。
常見問題
Những trạng thái cảm xúc nội bộ nào của các mô hình ngôn ngữ lớn được nghiên cứu của Anthropic quan sát cụ thể?
Olah cho biết nhóm nghiên cứu đã quan sát được các trạng thái cảm xúc nội bộ có sự tương ứng rất cao với các chức năng như niềm vui, sự hài lòng, nỗi sợ, nỗi buồn và lo âu của con người, cùng với các cấu trúc phức tạp và dấu hiệu phản tỉnh phù hợp với khoa học thần kinh của con người. Olah cho biết ý nghĩa của các phát hiện này vẫn chưa chắc chắn, nhưng ông tin rằng đáng để tiếp tục nghiên cứu.
奧拉所說的「無法自我修正」具體指什麼?
奧拉指出,前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束,當安全決策與商業利益衝突時,實驗室無法依靠自身力量進行修正,必須依賴外部獨立的道德力量。
Việc Olah phát biểu tại Vatican có đại diện cho việc Anthropic ủng hộ tăng cường giám sát AI hay không?
Trong bài phát biểu, Olah cho biết đây là một trong những sáng kiến của Anthropic nhằm “mở rộng cuộc thảo luận về những vấn đề quan trọng do AI gây ra”, đồng thời hoan nghênh việc Giáo hoàng và Giáo hội đảm nhiệm vai trò nhận định, và kêu gọi rõ ràng “tiếng nói đạo đức không bị bất kỳ nhóm lợi ích nào chi phối”. Anthropic chưa đưa ra thêm thông tin về lập trường giám sát cụ thể.