Superando a publicação do processo de pós-treinamento do agente de busca na web, baseado no Qwen3.5-122B-A10B e 397B, dividido em duas fases: SFT para estabelecer o seguimento de instruções e a coerência linguística, RL (GRPO) para otimizar a eficiência na busca e nas ferramentas. Os dados incluem perguntas de múltiplas etapas verificáveis desenvolvidas internamente e condições de rubrica, com recompensas usando agregação controlada e penalidades de eficiência com âncoras dentro do grupo. Avaliações mostram que, no FRAMES, uma única chamada de ferramenta atinge 57,3%, quatro chamadas atingem 73,9%, com um custo de cerca de 2 centavos de dólar, superando GPT-5.4 e Sonnet.

BlockBeatNews

2026-04-23 05:07:25

Geração de resumo em curso

De acordo com o monitoramento Beating, a equipe de pesquisa Perplexity publicou um artigo técnico, divulgando seu processo de pós-treinamento do agente de busca na web. Este processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, utilizando uma abordagem de duas fases: primeiro, ajuste supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguimento de instruções e consistência linguística; depois, reforço de estratégia online (RL) para otimizar a precisão da busca e a eficiência no uso de ferramentas.

A fase de RL utiliza o algoritmo GRPO, com dados de treinamento compostos por duas partes: uma, um conjunto de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, partindo de consultas sementes, construindo questões que requerem raciocínio de 2 a 4 saltos através de encadeamento de entidades, e verificando a unicidade da resposta com múltiplos solucionadores independentes; a segunda, dados de diálogo geral baseados em critérios de avaliação (rubric), convertendo requisitos de implantação como seguimento de instruções e restrições de formato em condições atômicas passíveis de verificação objetiva, usados na fase de RL para evitar a degradação do comportamento estabelecido pelo SFT.

O núcleo do design de recompensa é a agregação por controle: apenas quando a base está correta (pergunta e resposta ou todos os critérios do rubric atendidos), a pontuação de preferência participa do cálculo, prevenindo que sinais de alta preferência obscureçam erros factuais. A penalidade de eficiência usa uma abordagem de ancoragem em grupo, com respostas corretas do grupo como referência, aplicando penalizações suaves ao número de chamadas de ferramenta e ao comprimento de geração que excedem esse padrão.

A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinamento apresenta desempenho superior em vários benchmarks de busca. No FRAMES, uma única chamada de ferramenta atinge 57,3%, 5,7 pontos percentuais acima do GPT-5.4 e 4,7 pontos acima do Sonnet 4.6. Com orçamento médio (4 chamadas de ferramenta), alcança 73,9%, com custo por consulta de 2,0 centavos de dólar; sob as mesmas condições, GPT-5.4 é 67,8% / 8,5 centavos e Sonnet 4.6 é 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem otimizações de cache.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.19M Popularidade
#
WCTCTradingChallengeShare8MUSDT
791.06K Popularidade
#
BitcoinBouncesBack
206.04K Popularidade
#
IsraelStrikesIranBTCPlunges
30.66K Popularidade
#
EthereumMemeSeasonReturns
2M Popularidade

Fixar

Após treinar o agente de pesquisa pública Perplexity, o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Fixar