Kết quả tìm kiếm cho "RL"
2026-04-23
04:54

Perplexity 公布网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Perplexity 使用在 Qwen3.5 模型上先进行 SFT、再进行带有 RL 的后训练,并借助多跳 QA 数据集与评分标准校验来提升搜索的准确性和效率,从而实现同级最佳的 FRAMES 表现。 摘要:Perplexity 面向网页搜索代理的后训练流程,将监督微调 (SFT) 结合在线强化学习 (RL),并通过 GRPO 算法来强制指令遵循与语言一致性。强化学习阶段使用专有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移,并采用奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率为 57.3%,四次调用为 73.9%,成本为每次查询 $0.02;在这些指标上,其表现优于 GPT-5.4 和 Claude Sonnet 4.6。定价基于 API,且不包含缓存。
Xem thêm
00:19
1

Cursor chính thức xác nhận Kimi K2.5 là nền tảng, Mặt tối của mặt trăng: thuộc về hợp tác thương mại được cấp phép

Tài khoản chính thức của Dark Side of Moon chúc mừng Cursor phát hành Composer 2, đồng thời tiết lộ hợp tác cấp phép với Kimi K2.5. Đồng sáng lập viên Cursor xác nhận sử dụng nền tảng Kimi, nhấn mạnh chi tiết kỹ thuật và cấu trúc mô hình. Hai người sáng lập thừa nhận việc không kịp thời ghi chú nguồn gốc nền tảng là một sai sót, sẽ cải thiện trong lần phát hành tiếp theo. Elon Musk cũng tham gia thảo luận, tăng mức độ chú ý của chủ đề.
Xem thêm
09:47

Cursor Composer 2 bị cáo buộc sử dụng mô hình Kimi K2.5, Moonshot AI tố cáo nó không tuân thủ giấy phép

Các nhà phát triển phát hiện ra rằng mô hình Composer 2 do Cursor phát hành có ID mô hình là Kimi K2.5, và nghi ngờ rằng nó không tôn trọng giấy phép và không thanh toán phí. Người phụ trách của Moon Dark Face cho biết, sau khi kiểm tra, đã xác nhận sự nhất quán với Kimi tokenizer của họ, buộc tội Cursor không đề cập đến Kimi K2.5. Đến nay, Cursor vẫn chưa đưa ra bất kỳ phản hồi nào.
Xem thêm
14:21

Gradient giới thiệu khung học tăng cường phân tán Echo-2 và dự kiến ra mắt nền tảng RLaaS Logits

Framework học tăng cường phân tán Echo-2 do Gradient phát hành, thông qua việc tách rời Learner và Actor, đã giảm đáng kể chi phí đào tạo sau khi huấn luyện mô hình lớn, từ 4500 đô la xuống còn 425 đô la. Nó sử dụng công nghệ phân tách lưu trữ và tính toán để thực hiện đào tạo bất đồng bộ, nâng cao hiệu quả đào tạo đồng thời duy trì độ chính xác của mô hình. Ngoài ra, Gradient còn ra mắt nền tảng RLaaS Logits, đã mở đăng ký cho sinh viên và nhà nghiên cứu.
Xem thêm
09:15

Mechanism Capital đối tác: Quy mô dữ liệu AI thực thể sẽ mở rộng gấp 100 lần vào năm 2026

Mechanism Capital合伙人Andrew Kang dự đoán, vào năm 2025 lĩnh vực robot sẽ vượt qua các thách thức về kiến trúc mô hình và huấn luyện, giúp các công ty AI thu thập dữ liệu quy mô lớn và đạt tỷ lệ thành công trên 99%. Công nghệ ghi nhớ, tiến bộ trong mô hình định vị ảo sẽ nâng cao khả năng hiểu không gian và xử lý dữ liệu, đồng thời dự báo đến năm 2026 dữ liệu AI thực thể sẽ mở rộng gấp 100 lần.
Xem thêm
05:38

Prime Intellect ra mắt mô hình INTELLECT-3

Phi tập trung AI giao thức Prime Intellect ra mắt mô hình chuyên gia hỗn hợp INTELLECT-3 với 106B tham số, mô hình này dựa trên mô hình GLM 4.5 Air Base và được đào tạo bằng SFT và RL. Prime Intellect đã hoàn thành vòng gọi vốn 15 triệu đô la vào tháng 3 năm nay.
Xem thêm