Message de Gate News, 24 avril — DeepSeek V4 a publié des résultats issus d’évaluations de raisonnement mathématique formel, obtenant un score parfait de 120/120 sur Putnam-2025, à égalité avec Axiom pour la première place.
Dans le régime pratique utilisant LeanExplore et un échantillonnage contraint, V4-Flash-Max a obtenu 81.00 sur le benchmark Putnam-200 Pass@8, surpassant nettement Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) et Seed-1.5-Prover (26.50). Les résultats du régime frontier ont montré V4 en avance sur Seed-1.5-Prover (110/120) et Aristotle (100/120).
V4 emploie une approche hybride de raisonnement formel-informel : le raisonnement informel génère des solutions candidates en langage naturel, l’auto-vérification filtre les résultats, et un agent formel termine des preuves rigoureuses dans Lean. Les résultats du régime frontier ont utilisé une montée en charge computationnelle à grande échelle, tandis que les scores du régime pratique reflètent mieux les capacités de déploiement standard.
Related News
OpenAI lance GPT-5.5 : 12M de contexte, l’indice AA atteint le sommet, Terminal-Bench 82,7 % reconfigure la référence des agents
Hyperliquid HYPE atteint un sommet sur 60 jours sur l’élan HIP4
DeepSeek discute d’un premier tour de financement externe, valorisation 20 milliards de dollars : nouveau sommet pour l’évaluation de l’IA en Chine