Yifan Zhang révèle les spécifications techniques complètes de DeepSeek V4 : 1,6T paramètres, 384 experts activés pour 6

robot
Création du résumé en cours
ME News Actualités, le 22 avril (UTC+8), selon le monitoring de Dongcha Beating, le doctorant de Princeton Yifan Zhang a mis à jour les détails techniques de DeepSeek V4 sur X. Il avait annoncé « V4 la semaine prochaine » le 19 avril et listé trois noms de composants architecturaux, ce soir il a fourni la table des paramètres complète, tout en révélant pour la première fois l’existence d’une version allégée V4-Lite avec 285 milliards de paramètres. La capacité totale de V4 est de 1,6 téraoctets. Le mécanisme d’attention est DSA2, combinant DSA (DeepSeek Sparse Attention), utilisé précédemment dans V3.2, et NSA (Native Sparse Attention), proposé dans un article publié au début de cette année, deux schémas d’attention sparse, avec head-dim 512, en association avec Sparse MQA et SWA (attention à fenêtre glissante). La couche MoE comprend 384 experts, en activant 6 à chaque fois, utilisant le Mega-Kernel MoE Fusionné. La connexion résiduelle utilise Hyper-Connections. Les détails révélés pour la première fois lors de l’entraînement incluent : l’optimiseur Muon (un optimiseur matriciel appliquant la normalisation de Newton-Schulz à la mise à jour du momentum), une longueur de contexte de pré-entraînement de 32K, une phase d’apprentissage par renforcement utilisant GRPO avec correction par divergence KL. La longueur de contexte finale a été étendue à 1 million. La modalité est purement textuelle. Zhang n’occupe pas de poste chez DeepSeek, et l’équipe officielle de DeepSeek n’a pas répondu à ces informations. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé