根據 The Information,引用內部騰訊備忘錄與消息來源,儘管 Anthropic 明確禁止為以中國公司為對象的商業服務(理由是國家安全疑慮),騰訊員工仍在其最新大型語言模型 Hy3 的後訓練階段使用 Anthropic 的 Claude Code。
Hy3 採用 295B 參數的混合專家架構。在 RLHF(從人類回饋進行強化學習)階段,騰訊人員擔任人類評估者,且每人使用量上限為數千個 token。內部備忘錄提供了 Claude Code 的安裝指南。騰訊員工使用 Claude Code 來生成高品質的參考範例,以用於對匿名模型輸出進行評分,而非他們所稱的「蒸餾」。Anthropic 的發言人表示,該公司會積極監控蒸餾攻擊,但未直接回應騰訊使用 Claude Code 的情況。