DeepSeek V4 obtient un score parfait sur Putnam-2025, à égalité avec Axiom en raisonnement mathématique formel

Message de Gate News, 24 avril — DeepSeek V4 a publié des résultats issus d’évaluations de raisonnement mathématique formel, obtenant un score parfait de 120/120 sur Putnam-2025, à égalité avec Axiom pour la première place.

Dans le régime pratique utilisant LeanExplore et un échantillonnage contraint, V4-Flash-Max a obtenu 81.00 sur le benchmark Putnam-200 Pass@8, surpassant nettement Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) et Seed-1.5-Prover (26.50). Les résultats du régime frontier ont montré V4 en avance sur Seed-1.5-Prover (110/120) et Aristotle (100/120).

V4 emploie une approche hybride de raisonnement formel-informel : le raisonnement informel génère des solutions candidates en langage naturel, l’auto-vérification filtre les résultats, et un agent formel termine des preuves rigoureuses dans Lean. Les résultats du régime frontier ont utilisé une montée en charge computationnelle à grande échelle, tandis que les scores du régime pratique reflètent mieux les capacités de déploiement standard.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire