DeepSeek publie la série de modèles open-source V4 avec 1,6T de paramètres et une licence MIT

Message d’actualité de Gate, 24 avril — DeepSeek a publié la série V4 de modèles open-source sous la licence MIT, avec des poids désormais disponibles sur Hugging Face et ModelScope. La série comprend deux modèles (MoE) de type mixture-of-experts : V4-Pro avec 1,6 billion de paramètres au total et 49 milliards activés par jeton, et V4-Flash avec 284 milliards de paramètres au total et 13 milliards activés par jeton. Les deux prennent en charge une fenêtre de contexte d’1 million de jetons.

L’architecture présente trois mises à niveau clés : un mécanisme d’attention hybride combinant l’attention clairsemée compressée (CSA) et l’attention fortement compressée (HCA) qui réduit considérablement la surcharge pour les longs contextes — pour V4-Pro, les FLOPs d’inférence pour un contexte de 1M ne sont que 27 % de ceux de V3.2, et le cache KV (VRAM destiné au stockage d’informations historiques pendant l’inférence) n’est que 10 % de celui de V3.2 ; des hyperconnexions à contraintes de manifold (mHC) remplaçant les connexions résiduelles traditionnelles afin d’améliorer la stabilité de la propagation du signal entre les couches ; et l’optimiseur Muon pour une convergence d’entraînement plus rapide. Le préentraînement a utilisé plus de 32 trillions de jetons de données.

Le post-entraînement emploie une approche en deux étapes : d’abord entraîner des experts spécifiques au domaine via un fine-tuning supervisé (SFT) et l’apprentissage par renforcement GRPO, puis les fusionner en un seul modèle grâce à une distillation en ligne. V4-Pro-Max (plus haut mode d’inférence) affirme être le modèle open-source le plus puissant, avec des benchmarks de codage de premier plan et des écarts nettement réduits par rapport aux modèles de pointe propriétaires sur les tâches de raisonnement et d’agents. V4-Flash-Max atteint des performances de raisonnement de niveau Pro avec un budget de calcul suffisant, mais est limité par l’échelle des paramètres sur les tâches de connaissance pure et les tâches d’agents complexes. Les poids sont stockés dans une précision mixte FP4+FP8.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Les entreprises d'IA chinoises stimulent la demande de bureaux jusqu'à 3 fois d'une année sur l'autre, réduisant les taux de vacance à Hangzhou et à Shenzhen de 30% à 20%

D’après des données UBS rapportées par The Economist, la demande d’espace de bureaux des entreprises chinoises d’IA a atteint 3 fois le niveau de mars de l’année dernière. En réponse à la montée de DeepSeek et à la transformation IA d’Alibaba, les taux de vacance des bureaux dans des pôles technologiques comme Hangzhou et Shenzhen ont nettement baissé, passant de 30% fin 2025 à environ 20%. Une décision de justice à Hangzhou à la fin du mois d’avril a aussi contribué à la demande de bureaux, la

GateNewsIl y a 1h

Paul Tudor Jones prédit que le marché haussier porté par l’IA a encore 1 à 2 ans à vivre, et ajoute des actions liées à l’IA

Selon Paul Tudor Jones, l'investisseur légendaire et fondateur de Tudor Investment qui a correctement prédit le krach boursier de 1987, le rallye boursier américain porté par l'intelligence artificielle pourrait encore durer 1 à 2 ans à partir du 8 mai. Jones a déclaré qu’il renforce récemment ses positions sur des actions liées à l’IA, notant que le développement actuel du marché fait écho à la révolution logicielle des années 1980 et à la commercialisation précoce d’Internet dans les années 19

GateNewsIl y a 1h

DeepSeek rétablit les services Web et API après des pannes le 8 mai

D’après la déclaration officielle de DeepSeek, les services web et l’API de la plateforme ont été rétablis le 8 mai après des interruptions plus tôt. Des utilisateurs avaient signalé des perturbations du service avec des messages indiquant « serveur occupé, veuillez réessayer plus tard ». La société a confirmé que le problème était résolu à 18 h 05, heure locale.

GateNewsIl y a 1h

Google exigera l’utilisation de l’IA dans les entretiens de code, et lancera plus tard cette année un recrutement alimenté par Gemini

D’après Business Insider, citant des documents internes et confirmé par un porte-parole de Google, Google autorisera les candidats à utiliser l’assistant d’IA Gemini de Google dans les entretiens de « compréhension de code » à partir de plus tard cette année. Les candidats devront lire, déboguer et optimiser du code existant

GateNewsIl y a 1h

China Mobile lance une plateforme de modèles d’IA avec plus de 300 intégrations, réduit les coûts en tokens de 30%

D’après la CCTV, la plateforme d’agrégation de modèles de grand langage de China Mobile a officiellement été lancée le 8 mai, en intégrant plus de 300 modèles d’IA nationaux — la plus grande collection de ce type en Chine. La plateforme utilise un modèle d’optimisation de jetons qui associe automatiquement les tâches au modèle le plus adapté en fonction des priorités de l’utilisateur : efficacité des coûts, performance ou approche équilibrée. Lorsque les modèles rencontrent des dépassements de d

GateNewsIl y a 1h
Commentaire
0/400
Aucun commentaire