Após treinar o agente de pesquisa pública Perplexity, o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a equipe de pesquisa Perplexity publicou um artigo técnico, divulgando seu processo de pós-treinamento do agente de busca na web. Este processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, utilizando uma abordagem de duas fases: primeiro, ajuste supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguimento de instruções e consistência linguística; depois, reforço de estratégia online (RL) para otimizar a precisão da busca e a eficiência no uso de ferramentas.

A fase de RL utiliza o algoritmo GRPO, com dados de treinamento compostos por duas partes: uma, um conjunto de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, partindo de consultas sementes, construindo questões que requerem raciocínio de 2 a 4 saltos através de encadeamento de entidades, e verificando a unicidade da resposta com múltiplos solucionadores independentes; a segunda, dados de diálogo geral baseados em critérios de avaliação (rubric), convertendo requisitos de implantação como seguimento de instruções e restrições de formato em condições atômicas passíveis de verificação objetiva, usados na fase de RL para evitar a degradação do comportamento estabelecido pelo SFT.

O núcleo do design de recompensa é a agregação por controle: apenas quando a base está correta (pergunta e resposta ou todos os critérios do rubric atendidos), a pontuação de preferência participa do cálculo, prevenindo que sinais de alta preferência obscureçam erros factuais. A penalidade de eficiência usa uma abordagem de ancoragem em grupo, com respostas corretas do grupo como referência, aplicando penalizações suaves ao número de chamadas de ferramenta e ao comprimento de geração que excedem esse padrão.

A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinamento apresenta desempenho superior em vários benchmarks de busca. No FRAMES, uma única chamada de ferramenta atinge 57,3%, 5,7 pontos percentuais acima do GPT-5.4 e 4,7 pontos acima do Sonnet 4.6. Com orçamento médio (4 chamadas de ferramenta), alcança 73,9%, com custo por consulta de 2,0 centavos de dólar; sob as mesmas condições, GPT-5.4 é 67,8% / 8,5 centavos e Sonnet 4.6 é 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem otimizações de cache.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar