Publier le message d’actualité, 23 avril — L’équipe de recherche de Perplexity a publié un article technique décrivant sa méthodologie de post-formation pour les agents de recherche web. L’approche utilise deux modèles open source Qwen3.5 (Qwen3.5-122B-A10B et Qwen3.5-397B-A17B) et met en œuvre un pipeline en deux étapes : un fine-tuning supervisé (SFT) pour établir le respect des instructions et la cohérence linguistique, suivi d’un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l’efficacité d’utilisation des outils.
La phase RL tire parti de l’algorithme GRPO avec deux sources de données : un jeu de données interne propriétaire vérifiable de questions-réponses multi-étapes construit à partir de requêtes de départ nécessitant 2 à 4 étapes de raisonnement avec vérification par plusieurs solveurs, et des données conversationnelles générales basées sur des grilles d’évaluation qui transforment les exigences de déploiement en conditions atomiques objectivement vérifiables afin de prévenir la dégradation du comportement de la SFT.
La conception des récompenses emploie une agrégation filtrée — les scores de préférence ne contribuent que lorsque la correction de base est atteinte (correspondance question-réponse de base) ou lorsque toutes les conditions de grille d’évaluation sont satisfaites (, empêchant des signaux de préférence élevés de masquer des erreurs factuelles. Les pénalités d’efficacité utilisent un ancrage au sein du groupe, en appliquant des pénalités progressives aux appels d’outils et à la longueur de génération dépassant la référence des réponses correctes dans le même groupe.
L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances de sa catégorie sur des bancs d’essai de recherche. Sur FRAMES, il atteint 57,3 % d’exactitude avec un seul appel d’outil, dépassant GPT-5.4 de 5,7 points de pourcentage et Claude Sonnet 4.6 de 4,7 points de pourcentage. Dans un budget modéré )quatre appels d’outils, il obtient 73,9 % d’exactitude à 0,02 $ par requête, contre 67,8 % d’exactitude pour GPT-5.4 à 0,085 $ par requête et 62,4 % d’exactitude pour Sonnet 4.6 à 0,153 $ par requête. Les chiffres de coût reposent sur la tarification API publique de chaque fournisseur et excluent les optimisations de mise en cache.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
SwarmBase intègre l’agent AIDEN d’IQ AI le 7 mai
D’après l’annonce officielle d’IQ AI du 7 mai, SwarmBase a intégré l’agent AIDEN AI dans son infrastructure décentralisée de communauté afin d’améliorer l’accessibilité aux connaissances blockchain. AIDEN fonctionne comme un assistant intelligent qui aide les utilisateurs à interpréter les termes blockchain complexes,
GateNewsIl y a 9h
Exodus lance XO Cash, un stablecoin d’agent IA sur Solana, avec les outils de développement AgentKit
Selon Globenewswire, Exodus a lancé aujourd’hui XO Cash, une stablecoin exclusive aux agents IA sur Solana. La société a également publié simultanément AgentKit, une boîte à outils pour développeurs permettant d’effectuer des appels d’API uniques afin de créer des portefeuilles indépendants pour des agents IA.
Les agents peuvent invoquer directement les soldes d’Exodus Pay pour
GateNewsIl y a 11h
Trois agences chinoises publient des lignes directrices sur les agents d’IA avec 19 scénarios d’application typiques
Selon PANews, l’Administration chinoise de la cybersécurité, la Commission nationale du développement et de la réforme et le ministère de l’Industrie et des Technologies de l’information ont publié conjointement aujourd’hui (8 mai) des orientations sur les agents IA. Le document définit un agent IA comme un système d’intelligence artificielle doté d’une autonomie
GateNewsIl y a 13h
Nous Research publie Hermes Agent v0,13.0 avec un système multi-agents Kanban reconstruit
D’après Beating, Nous Research a publié Hermes Agent v0.13.0, un framework d’agents open source. La version réintroduit le système de collaboration multi-agents Kanban, qui avait été testé auparavant puis retiré. Le Kanban reconstitué inclut désormais la détection de battements de cœur, le nettoyage des processus zombies et un
GateNewsIl y a 15h
Fomoin s’associe à Catto Verse pour intégrer 12 agents d’IA pour l’automatisation Web3
D’après l’annonce officielle de Fomoin sur X du 7 mai, la plateforme de lancement Web3 a annoncé un partenariat stratégique avec Catto Verse, une plateforme décentralisée d’IA, afin d’intégrer des outils crypto alimentés par l’IA et des fonctionnalités d’automatisation. La collaboration vise à améliorer l’expérience utilisateur et à rationaliser
GateNewsIl y a 16h
GoldFinger et 4AI annoncent un partenariat stratégique pour combiner l’or tokenisé avec l’IA décentralisée
D’après l’annonce officielle de GoldFinger du 7 mai 2026, la plateforme de tokenisation d’actifs du monde réel a conclu un partenariat stratégique avec 4AI, un marché décentralisé d’intelligence artificielle sur BSC. La collaboration vise à fusionner les capacités d’IA décentralisées avec
GateNewsIl y a 16h