封面新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其用于网络搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。
RL 阶段使用 GRPO 算法,来自两类数据源:一是由内部种子查询构建的专有多跳可验证问答数据集,这些查询需要 2–4 跳推理,并采用多解算器验证;二是基于评分标准的通用对话数据,它将部署需求转换为客观可核查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准要求均满足))偏好分数才会计入,避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,这些值超过了同一组中正确答案的基线水平。
评估显示,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现了同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 高出 5.7 个百分点,较 Claude Sonnet 4.6 高出 4.7 个百分点。在适度预算 (four tool calls) 下,它以每次查询 $0.02 的成本达到 73.9% 准确率;相比之下,GPT-5.4 在每次查询 $0.085 时准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 时准确率为 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
TT Chain integra el sistema de seguridad AegisAI para la protección de RWA el 11 de mayo
Según el anuncio de TT Chain del 11 de mayo, la red blockchain de capa 2 integró la infraestructura de seguridad impulsada por IA de AegisAI en su ecosistema de activos del mundo real tokenizados. La colaboración mejora la protección de las transacciones de activos tokenizados y de las operaciones entre cadenas mediante capacidades avanzadas de detección de amenazas y auditoría de contratos inteligentes. Los agentes autónomos de IA de AegisAI detectan ataques de phishing, evitan intentos de acce
GateNewshace6h
JD.com actualiza su agente de IA de desarrollo propio; el crecimiento de usuarios supera el 300% en el 1T
De acuerdo con el CEO Xu Ran en la llamada de resultados de JD.com el 12 de mayo, la empresa está actualizando de forma integral su agente de IA desarrollado internamente para identificar con mayor precisión, activar y relacionar las necesidades de los usuarios. El asistente de IA de JD.com, Jingdong Jingyan, registró un aumento de más del 300% en el uso por parte de los usuarios, año contra año, en el primer trimestre.
GateNewshace6h
The Graph lanza una función de pagos x402 compatible con el acceso a datos on-chain por solicitud con USDC el 12 de mayo
Según el anuncio oficial de The Graph del 12 de mayo, Graph Gateway ahora admite pagos x402, lo que permite a los desarrolladores y Agentes de IA acceder a datos on-chain mediante pagos por solicitud en USDC sin necesidad de claves de API, cuentas o paneles. Los usuarios reciben una respuesta HTTP 402 que contiene información de precio y, después, completan un pago en USDC basado en una firma en la red Base para recuperar datos en solicitudes posteriores. La actualización incluye un nuevo endpoi
GateNewshace7h
SAP invierte en n8n, duplicando la valoración de la plataforma de automatización de flujos de trabajo a 5,2 mil millones de dólares
Según Bloomberg, SAP invirtió en n8n el martes, duplicando la valoración de la plataforma de automatización de flujos de trabajo hasta 5,2 mil millones de dólares. El gigante alemán del software también firmó un acuerdo de asociación plurianual con n8n para integrar las herramientas de la plataforma en el motor de construcción de agentes de IA de SAP, Joule Studio, según el comunicado de SAP.
GateNewshace8h
Artificial Analysis publica un benchmark para agentes de codificación; Zhipu GLM-5.1 ocupa el primer lugar entre los modelos de código abierto
Artificial Analysis lanzó hoy un nuevo Coding Agent Index para evaluar cómo se desempeñan los modelos de IA cuando se combinan con marcos de agentes en puntos de referencia clave, incluidos SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 y SWE-Atlas-QnA. Zhipu GLM-5.1 ocupó el primer lugar entre los modelos de código abierto en la evaluación, demostrando un rendimiento líder en escenarios reales de agentes de programación.
GateNewshace8h
DAPPOS lanza xBubble, un agente universal de IA con más de 10 funciones principales para usuarios no técnicos
Según ChainCatcher, DAPPOS lanzó oficialmente xBubble, un producto universal de agente de IA diseñado para usuarios no técnicos. El producto recomienda automáticamente agentes especializados para completar tareas con prompts mínimos y menos iteraciones de depuración. xBubble ofrece 10+ capacidades principales que cubren la creación de imágenes, videos, documentos y sitios web, con soporte tanto para despliegue local como en la nube.
GateNewshace13h