Mercury 2 d'Inception Labs obtient 90 sur l'AIME 2026, devançant DiffusionGemma de Google

Inception Labs a présenté Mercury 2 jeudi, le positionnant comme le modèle de langage de raisonnement le plus rapide au monde, à environ 1 000 tokens par seconde. Le modèle a obtenu 90 sur le benchmark AIME 2026, surpassant DiffusionGemma de Google, récemment publié, qui a atteint 69,1% sur le même test tout en affichant des vitesses de génération similaires. Les deux modèles utilisent une génération parallèle basée sur la diffusion plutôt qu’un traitement séquentiel des tokens, ce qui reflète un changement architectural dans l’ensemble du secteur vers des méthodes d’inférence plus rapides.

Mercury 2 surpasse DiffusionGemma sur le benchmark de mathématiques

Mercury 2 génère environ 1 000 tokens par seconde—les morceaux de texte qu’un modèle IA lit et écrit—contre environ 89 tokens par seconde pour Claude Haiku 4,5 Reasoning d’Anthropic et 71 pour OpenAI GPT-5 Mini, d’après l’annonce d’Inception Labs. Sur AIME 2026, construit à partir de problèmes réels de l’American Invitational Mathematics Examination et noté comme le pourcentage de réponses correctement résolues, Mercury 2 a atteint 90%. Google a testé DiffusionGemma sur le même ensemble, où il a obtenu 69,1%, tandis que Gemma 4 standard, non basé sur la diffusion, a obtenu 88,3% sur le même test.

Sur GPQA, un benchmark scientifique de niveau doctorat noté de la même manière, les deux modèles sont presque à égalité : Mercury 2 à 77% contre 73,2% pour DiffusionGemma. Le guide développeur de Google recommande Gemma 4 standard pour les applications qui exigent une qualité maximale, tout en concédant que DiffusionGemma le dépasse sur l’ensemble des points. DiffusionGemma est gratuit et avec poids ouverts sur Hugging Face. Mercury 2 est un modèle d’API payant à poids fermés.

Les modèles de diffusion remplacent la génération séquentielle de tokens

Les deux modèles abandonnent l’approche “machine à écrire” pour écrire. Un chatbot standard écrit un mot, vérifie ce qu’il vient d’écrire, puis écrit le suivant, en boucle jusqu’à ce que la réponse soit terminée. Les modèles de diffusion remplissent plutôt un bloc de texte avec des tokens-pilotes aléatoires et effacent le bruit sur une poignée de passes parallèles—la même astuce qui transforme un visuel statique en photo dans des générateurs d’images comme Stable Diffusion—jusqu’à ce que l’ensemble du bloc se verrouille en une réponse finie, en une seule fois.

Augment Code rapporte une réduction de 82% de la latence en production

Augment Code, une entreprise d’agents de codage IA, a remplacé Mercury 2 par Claude Opus 4,7 d’Anthropic sur son sous-agent de context-compaction et a observé une baisse de 82% de la latence et une réduction de 90% des coûts, tout en déclarant la même qualité de sortie, selon une étude de cas conjointe.

Inception Labs lève un tour de financement de 50 millions de dollars

Inception Labs a levé 50 millions de dollars, avec le soutien du bras venture de Nvidia et d’investisseurs individuels Andrew Ng et Andrej Karpathy. Le démarrage a été construit sur des recherches de son fondateur Stefano Ermon, professeur à Stanford, co-auteur de certaines des techniques de diffusion à base de scores qui alimentent aujourd’hui les générateurs d’images.

La génération parallèle permet une architecture de système multi-agent

Les systèmes IA complexes sont des orchestres d’aides spécialisées : une entité pour le raisonnement profond, plusieurs pour la synthèse rapide, l’aiguillage, la recherche d’outils, la vérification de la sortie. Les modèles séquentiels rendent ces appels utilitaires coûteux et lents. Les modèles de diffusion parallèles les rendent suffisamment bon marché et rapides pour être utilisés largement. Mercury 2 est une API/cloud pour l’instant, et l’écosystème complet—exécutions locales, frameworks d’agents—est encore en phase de rattrapage.

Les flux de travail sensibles à la vitesse profitent de l’approche de diffusion

Les cas d’usage incluent la programmation en temps réel où le modèle suit les modifications, le codage multi-agent ou les systèmes d’assistance où de nombreux sous-appels rapides ont lieu, des interfaces vocales qui ne donnent pas l’impression de décalage, et tout autocomplete sensible à la latence ou prédiction de prochaine action. À grande échelle, les économies de coûts et d’énergie liées à un débit plus élevé sur du matériel standard s’additionnent rapidement, d’après Inception Labs.

FAQ

Que a annoncé Inception Labs jeudi ?
Inception Labs a présenté Mercury 2 jeudi, le qualifiant de modèle de langage de raisonnement le plus rapide au monde. Il génère environ 1 000 tokens par seconde et a obtenu 90 sur le benchmark AIME 2026.

Comment Mercury 2 se compare-t-il à DiffusionGemma de Google sur les benchmarks ?
Mercury 2 a obtenu 90 sur AIME 2026, tandis que DiffusionGemma de Google a obtenu 69,1% sur le même test. Sur GPQA, un benchmark scientifique de niveau doctorat, Mercury 2 a atteint 77% contre 73,2% pour DiffusionGemma.

Quels gains de coût et de latence Augment Code a-t-il rapportés ?
Augment Code a remplacé Mercury 2 par Claude Opus 4,7 d’Anthropic sur son sous-agent de context-compaction et a observé une baisse de 82% de la latence et une réduction de 90% des coûts, tout en déclarant la même qualité de sortie, selon une étude de cas conjointe.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire