Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Após treinar o agente de pesquisa pública Perplexity, o modelo baseado no Qwen3.5 supera o GPT-5.4 em precisão e custo
De acordo com o monitoramento Beating, a equipe de pesquisa Perplexity publicou um artigo técnico, divulgando seu processo de pós-treinamento do agente de busca na web. Este processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, utilizando uma abordagem de duas fases: primeiro, ajuste supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguimento de instruções e consistência linguística; depois, reforço de estratégia online (RL) para otimizar a precisão da busca e a eficiência no uso de ferramentas.
A fase de RL utiliza o algoritmo GRPO, com dados de treinamento compostos por duas partes: uma, um conjunto de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, partindo de consultas sementes, construindo questões que requerem raciocínio de 2 a 4 saltos através de encadeamento de entidades, e verificando a unicidade da resposta com múltiplos solucionadores independentes; a segunda, dados de diálogo geral baseados em critérios de avaliação (rubric), convertendo requisitos de implantação como seguimento de instruções e restrições de formato em condições atômicas passíveis de verificação objetiva, usados na fase de RL para evitar a degradação do comportamento estabelecido pelo SFT.
O núcleo do design de recompensa é a agregação por controle: apenas quando a base está correta (pergunta e resposta ou todos os critérios do rubric atendidos), a pontuação de preferência participa do cálculo, prevenindo que sinais de alta preferência obscureçam erros factuais. A penalidade de eficiência usa uma abordagem de ancoragem em grupo, com respostas corretas do grupo como referência, aplicando penalizações suaves ao número de chamadas de ferramenta e ao comprimento de geração que excedem esse padrão.
A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinamento apresenta desempenho superior em vários benchmarks de busca. No FRAMES, uma única chamada de ferramenta atinge 57,3%, 5,7 pontos percentuais acima do GPT-5.4 e 4,7 pontos acima do Sonnet 4.6. Com orçamento médio (4 chamadas de ferramenta), alcança 73,9%, com custo por consulta de 2,0 centavos de dólar; sob as mesmas condições, GPT-5.4 é 67,8% / 8,5 centavos e Sonnet 4.6 é 62,4% / 15,3 centavos. Os dados de custo são calculados com base nos preços públicos das APIs de cada fornecedor, sem otimizações de cache.