Mensaje de Gate News, 22 de abril: el estudiante de doctorado de Princeton, Yifan Zhang, divulgó en X las especificaciones técnicas completas de DeepSeek V4, después de un adelanto el 19 de abril. V4 cuenta con 1.6 billones de parámetros totales y una variante liviana, V4-Lite, con 285 mil millones de parámetros.
El modelo emplea el mecanismo de atención DSA2, que combina la (DeepSeek Sparse Attention) previa de DeepSeek del V3.2 y la (Native Sparse Attention) NSA con embeddings de cabeza de 512 dimensiones, junto con (Sparse Multi-Query Attention)MQA( y )Sliding Window Attention(SWA). La capa MoE (Mixture of Experts) contiene 384 expertos con 6 activados por cada pase hacia adelante, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales emplean la arquitectura Hyper-Connections.
Los detalles de entrenamiento revelados por primera vez incluyen el uso del optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), una ventana de contexto de preentrenamiento de 32K tokens y GRPO Group Relative Policy Optimization con corrección de divergencia KL durante el aprendizaje por refuerzo. La ventana de contexto final se extiende hasta 1 millón de tokens. El modelo es solo texto.
Zhang no está empleado por DeepSeek, y la empresa no ha comentado oficialmente la información divulgada.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
OpenAI nombra a Emmanuel Marill, exejecutivo de Airbnb, para liderar la expansión de EMEA
OpenAI contrata a Emmanuel Marill como director gerente de EMEA para impulsar la expansión en medio de preocupaciones de soberanía y la competencia de Mistral AI; las suscripciones de EMEA están en aumento.
Resumen: OpenAI nombra a Emmanuel Marill director gerente para Europa, Oriente Medio y África para acelerar la expansión en medio de preocupaciones de soberanía y el escrutinio de la UE. El movimiento llega tras el aumento de suscripciones de EMEA y busca construir una huella local más sólida frente a rivales como Mistral AI.
GateNewsHace5m
Thinking Machines Lab asegura un acuerdo de nube por varios miles de millones de dólares con Google
Mensaje de Gate News, 23 de abril — Thinking Machines Lab, una startup de IA fundada por la exejecutiva de OpenAI Mira Murati, ha firmado un acuerdo de infraestructura en la nube con Google Cloud valorado en un monto de miles de millones de dólares estadounidenses de un solo dígito. El acuerdo marca la primera asociación de la empresa con un proveedor importante de servicios en la nube
GateNewsHace15m
El beneficio operativo de SK Hynix en el Q1 se dispara un 406% hasta un máximo histórico por la demanda de chips de IA
SK Hynix publica un beneficio operativo de Q1 de 37,6 billones de won y unos ingresos de 52,6 billones de won, al alza de forma marcada por la demanda impulsada por la IA de DRAM y NAND y el cambio hacia la inferencia en tiempo real.
GateNewshace1h
OpenAI alcanza una valoración pre-IPO de $1 un billón de dólares en medio de la carrera con SpaceX y Anthropic
OpenAI se acerca a una $1T valoración pre-IPO implícita mediante apuestas on-chain; SpaceX y Anthropic buscan valoraciones similares a medida que se disparan los costos de infraestructura de IA, impulsando los ingresos por suscripciones mientras Anthropic enfrenta confusión sobre precios.
GateNewshace2h
DeepSeek估值跃升超过$20 十亿美元,腾讯和阿里巴巴权衡投资
DeepSeek寻求超过$20B 的融资方案,腾讯/阿里巴巴讨论投资;Nvidia警告称,美国的芯片优势可能会被华为削弱;随着Vast Data的$1B 轮融资以及OpenAI/Anthropic/xAI的投资,AI资金继续激增。
DeepSeek计划在与腾讯和阿里巴巴的沟通中,将估值推高至超过$20 十亿美元,同时Nvidia警告称,如果将AI模型转向华为芯片,可能会削弱美国的领先地位。该报道还提到,全球AI融资出现激增,包括Vast Data的$1 十亿美元轮融资,估值为$30 十亿美元,以及对OpenAI、Anthropic和xAI的重大投资。
GateNewshace4h
OpenClaw, Hermes y SillyTavern confirmados como proyectos con soporte en el GLM Coding Plan
El product manager de Zhipu AI, Li, anuncia OpenClaw, Hermes y SillyTavern como proyectos compatibles bajo el GLM Coding Plan; otras herramientas se evaluarán caso por caso. No compartas credenciales ni uses suscripciones como acceso a la API; contacta con soporte para el error 1313.
El product manager de Zhipu AI, Li, anunció que OpenClaw, Hermes y SillyTavern cuentan oficialmente con soporte bajo el GLM Coding Plan, y que el resto de herramientas se evalúan caso por caso. La nota advierte sobre no compartir credenciales ni usar suscripciones como acceso a la API y dirige a los usuarios con el error 1313 a contactar con soporte.
GateNewshace7h