Perplexity 公开 Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

拦截新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其用于 Web 搜索代理的后训练方法。该方案使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,再进行在线强化学习 (RL) 以优化搜索准确性和工具使用效率。

强化学习阶段采用 GRPO 算法,包含两个数据来源:一个专有的多跳可验证问答数据集,该数据集由内部种子查询构建,要求进行 2–4 步推理,并通过多求解器进行验证;以及基于评分准则的通用对话数据,将部署需求转换为客观可检验的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或所有评分准则均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最优表现。在 FRAMES 上,它在单次工具调用下达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (四次工具调用) 下,其准确率达到 73.9%,成本为每次查询 $0.02;相比之下,GPT-5.4 的准确率为 67.8%,每次查询 $0.085,Sonnet 4.6 的准确率为 62.4%,每次查询 $0.153。费用数据基于各提供方的公开 API 定价,并不包含缓存优化。

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DAPPOS запускает xBubble — универсального AI-агента с 10+ ключевыми функциями для пользователей без технических навыков

Согласно ChainCatcher, DAPPOS официально запустила xBubble — универсальный продукт AI-агента, предназначенный для пользователей без технических навыков. Продукт автоматически рекомендует специализированных агентов для выполнения задач с минимальным количеством запросов и меньшим числом итераций отладки. xBubble предоставляет 10+ ключевых возможностей, включая создание изображений, видео, документов и сайтов, поддерживая как локальное, так и облачное развертывание.

GateNews3ч назад

Nous Research запускает Hermes Agent для управления компьютером на macOS, снижая потребление токенов на 95%

Nous Research объявила, что её агент Hermes запустил функцию удалённого управления компьютером на macOS, по данным наблюдений Beating. Эта функция позволяет выполнять фоновые операции, такие как поиск писем и написание кода, не мешая вводу пользователя и фокусу окна. Благодаря механизму сжатия контекста в четыре слоя фреймворк снижает расход токенов примерно с 600 тыс. до 30 тыс. при выполнении 20 последовательных операций с разрешением 1568×900.

GateNews5ч назад

SNS и PoH Network обеспечивают верификацию ИИ в сети Solana

SNS расширила полезность своих доменов .sol благодаря новой интеграции с PoH Network, представив усовершенствованные функции проверки on-chain личности в экосистеме Solana, сообщается в объявлении от 11 мая 2026 года. Сотрудничество призвано помочь отличать реальных пользователей от сущностей искусственного интеллекта в сети, а также повысить удобство использования и контекстную ценность блокчейн-идентификаторов. Интеграция была разработана в ходе хакатона Colosseum Frontier и знаменует собой зн

CryptoFrontier6ч назад

MoonPay приобретает Dawn Labs и запускает инструмент AI-агента для торговли на прогнозных рынках

По данным The Block, MoonPay приобрела Dawn Labs и запускает Dawn CLI — инструмент на базе ИИ, предназначенный для помощи неквалифицированным пользователям в создании торговых стратегий для прогнозных рынков. Пользователи могут описывать стратегии простым английским языком, а система автоматически выполняет исследование, генерацию кода, симуляцию и запуск в реальном времени. Торговая активность на прогнозных рынках на таких платформах, как Polymarket и Kalshi, в последние годы резко выросла: их

GateNews10ч назад

Circle запускает Agent Stack 12 мая, позволяя ИИ-агентам автономно использовать USDC

Согласно Decrypt, Circle запустила Agent Stack 12 мая — набор инструментов, который позволяет ИИ-агентам самостоятельно хранить средства, оплачивать комиссии и совершать транзакции с USDC без вмешательства человека. В состав входят агентский кошелёк, интерфейс командной строки, маркетплейс агентов и протокол нано-платежей, поддерживающий переводы размером от $0,000001 без комиссий за газ. Сооснователь Circle Джереми Аллер заявил, что Agent Stack — первый финансовый сервисный пакет, созданный с И

GateNews10ч назад

MoonPay приобретает Dawn Labs и запускает инструмент AI-агента для трейдинга на рынках прогнозов

По данным The Block, в этом месяце MoonPay приобрела Dawn Labs и запустила Dawn CLI — инструмент с поддержкой ИИ, предназначенный для помощи нетехническим пользователям в создании торговых стратегий для рынков прогнозов. Инструмент позволяет пользователям описывать торговые стратегии простыми словами на английском, а система автоматически выполняет исследование пользователя, генерацию кода, симуляцию и запуск в реальном времени. Основатель Нирадж Прасад заявил, что Dawn Labs разрабатывает систем

GateNews16ч назад
комментарий
0/400
Нет комментариев