Xiaomi dévoile des détails sur l’entraînement du MiMo-V2-Pro : paramètres du modèle 1T, milliers de GPUs déployés

GateNews

2026-04-24 04:57:28

Message de Gate News, 24 avril — La responsable de l’équipe de grands modèles de langage chez Xiaomi, Luo Fuli, a révélé dans une interview approfondie que le modèle MiMo-V2-Pro compte au total 1 trillion de paramètres et nécessitait des milliers de GPUs pour l’entraînement. Elle a noté que l’échelle de 1T représente le seuil minimum pour obtenir des performances se rapprochant du niveau de Claude Opus 4.6 et obtenir un billet d’entrée compétitif pour la phase suivante d’agents IA

D’un point de vue technique, la version Pro utilise un mécanisme d’attention éparse extrême avec un ratio de 7:1 entre l’attention globale et l’attention par fenêtre glissante, afin de maîtriser les coûts d’inférence pour le traitement de longs contextes. Le modèle conserve également l’architecture MTP (Multi-Token Prediction) pour tirer parti de la puissance de calcul disponible afin d’accélérer l’inférence.

Côté gestion, l’équipe MiMo de 100 personnes ne compte que 30 à 40 personnes directement impliquées dans les itérations cœur. L’équipe fonctionne sans hiérarchies formelles ni divisions explicites en sous-groupes, ni de dates limites de livraison. Lorsqu’elle rencontre des problèmes numériques instables tels que des pics de perte d’entraînement, l’équipe donne la priorité à l’arrêt de l’entraînement pour investigation, même si cela implique d’arrêter les opérations pendant une à deux semaines et d’engendrer des coûts de calcul se chiffrant en millions de dollars.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Les entreprises d'IA chinoises stimulent la demande de bureaux jusqu'à 3 fois d'une année sur l'autre, réduisant les taux de vacance à Hangzhou et à Shenzhen de 30% à 20%

Actualités de l’industrie de l’IA

D’après des données UBS rapportées par The Economist, la demande d’espace de bureaux des entreprises chinoises d’IA a atteint 3 fois le niveau de mars de l’année dernière. En réponse à la montée de DeepSeek et à la transformation IA d’Alibaba, les taux de vacance des bureaux dans des pôles technologiques comme Hangzhou et Shenzhen ont nettement baissé, passant de 30% fin 2025 à environ 20%. Une décision de justice à Hangzhou à la fin du mois d’avril a aussi contribué à la demande de bureaux, la

GateNewsIl y a 11m

Paul Tudor Jones prédit que le marché haussier porté par l’IA a encore 1 à 2 ans à vivre, et ajoute des actions liées à l’IA

Actions Actualités de l’industrie de l’IA

Selon Paul Tudor Jones, l'investisseur légendaire et fondateur de Tudor Investment qui a correctement prédit le krach boursier de 1987, le rallye boursier américain porté par l'intelligence artificielle pourrait encore durer 1 à 2 ans à partir du 8 mai. Jones a déclaré qu’il renforce récemment ses positions sur des actions liées à l’IA, notant que le développement actuel du marché fait écho à la révolution logicielle des années 1980 et à la commercialisation précoce d’Internet dans les années 19

GateNewsIl y a 14m

DeepSeek rétablit les services Web et API après des pannes le 8 mai

Actualités de l’industrie de l’IA

D’après la déclaration officielle de DeepSeek, les services web et l’API de la plateforme ont été rétablis le 8 mai après des interruptions plus tôt. Des utilisateurs avaient signalé des perturbations du service avec des messages indiquant « serveur occupé, veuillez réessayer plus tard ». La société a confirmé que le problème était résolu à 18 h 05, heure locale.

GateNewsIl y a 14m

Google exigera l’utilisation de l’IA dans les entretiens de code, et lancera plus tard cette année un recrutement alimenté par Gemini

Actualités de l’industrie de l’IA

D’après Business Insider, citant des documents internes et confirmé par un porte-parole de Google, Google autorisera les candidats à utiliser l’assistant d’IA Gemini de Google dans les entretiens de « compréhension de code » à partir de plus tard cette année. Les candidats devront lire, déboguer et optimiser du code existant

GateNewsIl y a 15m

China Mobile lance une plateforme de modèles d’IA avec plus de 300 intégrations, réduit les coûts en tokens de 30%

Actualités de l’industrie de l’IA

D’après la CCTV, la plateforme d’agrégation de modèles de grand langage de China Mobile a officiellement été lancée le 8 mai, en intégrant plus de 300 modèles d’IA nationaux — la plus grande collection de ce type en Chine. La plateforme utilise un modèle d’optimisation de jetons qui associe automatiquement les tâches au modèle le plus adapté en fonction des priorités de l’utilisateur : efficacité des coûts, performance ou approche équilibrée. Lorsque les modèles rencontrent des dépassements de d

GateNewsIl y a 15m

L’administration Trump prévoit un décret exécutif sur la sécurité de l’IA sans tests obligatoires des modèles le 9 mai

Actualités de l’industrie de l’IA

D’après des personnes au fait du dossier, le 9 mai, l’administration Trump prépare un décret exécutif demandant aux agences américaines et aux entreprises d’IA de collaborer pour protéger les réseaux contre les cyberattaques alimentées par l’IA, mais cette directive n’exigera pas que des modèles avancés obtiennent l’approbation du gouvernement. Le décret modifiera des programmes existants de partage d’informations en matière de cybersécurité afin d’y inclure les entreprises d’IA et de traiter le

GateNewsIl y a 15m

Commentaire

0/400

Aucun commentaire