Recientemente, DeepSeek V4 actualizó DSpark, aumentando la velocidad de inferencia en un 80%.

robot
Generación de resúmenes en curso

Ahora mismo, DeepSeek V4 ha realizado una actualización.

Se ha lanzado el nuevo marco de decodificación especulativa (Speculative Decoding) llamado DSpark, y se ha abierto de forma sincrónica el código del marco completo de decodificación especulativa de pila completa llamado DeepSpec que lo sustenta.

DeepSeek-V4-Pro-DSpark no es un modelo de arquitectura completamente nueva, sino que introduce un módulo de decodificación especulativa sobre la base de DeepSeek-V4-Pro. El enfoque de esta actualización está en la implementación práctica, no en la iteración de las capacidades del modelo en sí.

DSpark ya ha sido desplegado en el tráfico real en línea de DeepSeek-V4 (Flash y Pro), acelerando significativamente la velocidad de inferencia de los modelos de lenguaje grandes (LLM).

  • Informe técnico: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

  • Enlace al informe técnico: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

La intención principal de DSpark es resolver los cuellos de botella de latencia y rendimiento que enfrenta la inferencia de LLM en entornos de producción (especialmente en escenarios de alta concurrencia). En resumen, DSpark logra combinar exitosamente la «generación paralela» de alto rendimiento con la «verificación adaptativa sensible a la carga».

La decodificación especulativa es una técnica que acelera la inferencia de modelos de lenguaje grandes sin cambiar la distribución de salida del modelo. Su idea central es introducir un «modelo borrador» (draft model) ligero que genere varios tokens candidatos por adelantado, y luego el modelo objetivo (target model) verifica y acepta estos candidatos en lotes, transformando así la generación secuencial token por token en una verificación por lotes paralela, reduciendo drásticamente la latencia de extremo a extremo.

Sobre esta base, la innovación de DSpark reside en introducir una arquitectura de generación semi-autorregresiva (Semi-Autoregressive Generation): conserva la ventaja de alto rendimiento del modelo borrador paralelo, al tiempo que agrega un módulo serial ligero para modelar las dependencias entre los tokens dentro de un bloque, mitigando así el problema de la disminución de la tasa de aceptación en posiciones posteriores que sufren los modelos borrador paralelos.

Además, cuenta con una verificación programada por confianza sensible al hardware (Confidence-Scheduled Verification): la decodificación especulativa anterior solía enviar ciegamente todos los tokens borrador generados para su verificación; cuando el sistema está bajo alta carga, estos tokens de cola con alta probabilidad de ser rechazados desperdician gravemente la valiosa potencia de cómputo por lotes. DSpark introduce una cabeza de confianza (Confidence Head) para evaluar la probabilidad de supervivencia de cada token. Combinada con un planificador de prefijos sensible al hardware, el sistema puede ajustar dinámicamente la longitud de verificación óptima para cada solicitud según las características de rendimiento del motor en tiempo real, asignando potencia de cómputo solo a los tokens con el rendimiento esperado más alto.

Para implementarse en infraestructura real en línea, el planificador de DSpark adopta un mecanismo asíncrono, compatible con la programación de sobrecarga cero (ZOS) y la reproducción continua de gráficos CUDA. Utiliza las predicciones históricas de los dos pasos anteriores para determinar la longitud de truncamiento dinámico actual, ocultando así la latencia de programación, evitando pausas en la tubería de la GPU y garantizando la restauración completamente sin pérdidas de la distribución de salida del modelo objetivo.

En pruebas que abarcan múltiples áreas como razonamiento matemático, generación de código y diálogo cotidiano, DSpark supera ampliamente a los modelos autorregresivos (Eagle3) y modelos borrador paralelos (DFlash) más avanzados actuales. Por ejemplo, en los modelos objetivo de la serie Qwen3 (4B, 8B, 14B), su longitud media de aceptación aumenta entre un 26,7% y un 30,9% en comparación con Eagle3, y entre un 16,3% y un 18,4% en comparación con DFlash.

En comparación con la referencia de producción de un solo token (MTP-1) desplegada en la generación anterior, manteniendo el mismo rendimiento general, DSpark mejora la velocidad de generación del usuario entre un 60% y un 85% (modelo Flash) y entre un 57% y un 78% (modelo Pro).

Junto con DSpark, también se ha abierto el código de DeepSpec, un repositorio de código de pila completa para entrenar y evaluar modelos borrador de decodificación especulativa. Es la «infraestructura de código abierto» que alberga esta solución y otras implementaciones de algoritmos de vanguardia, e incluye herramientas de preparación de datos, implementación de modelos borrador, código de entrenamiento y scripts de evaluación.

DeepSpec divide el flujo general en tres fases: preparación de datos, entrenamiento y evaluación. Las tres fases deben ejecutarse en orden, y la salida de la fase anterior sirve como entrada de la siguiente.

En la fase de preparación de datos, es necesario descargar datos de prompts, regenerar respuestas del modelo objetivo utilizando el motor de inferencia y construir una caché objetivo (target cache). Es importante señalar que, tomando como ejemplo la configuración predeterminada Qwen/Qwen3-4B, el tamaño de la caché objetivo puede alcanzar aproximadamente 38 TB, por lo que se debe evaluar adecuadamente los recursos de almacenamiento antes de su uso.

La fase de entrenamiento se puede iniciar mediante bash scripts/train/train.sh. Este script llama a train.py e inicia un worker por cada GPU visible. El usuario puede seleccionar diferentes configuraciones de algoritmo y modelo objetivo en el directorio config/ especificando config_path. El proyecto también admite ajustar la configuración de entrenamiento sobrescribiendo config_path, target_cache_dir y modificando campos de configuración individuales mediante --opts.

En cuanto al hardware, la configuración y los scripts predeterminados de DeepSpec están diseñados para un entorno de un solo nodo con 8 GPU. Si la cantidad de GPU es menor, el usuario debe reducir correspondientemente el número de GPU visibles en CUDA_VISIBLE_DEVICES.

La fase de evaluación se inicia mediante bash scripts/eval/eval.sh. El script de evaluación utiliza el checkpoint del modelo borrador entrenado para medir la aceptación en múltiples tareas de referencia de decodificación especulativa. Los conjuntos de datos de evaluación actualmente listados en el proyecto incluyen GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca y Arena-Hard-v2, cubriendo diferentes tipos de tareas como razonamiento matemático, generación de código, capacidad de diálogo y preguntas y respuestas integrales.

En cuanto a los algoritmos, DeepSpec actualmente incluye tres modelos borrador integrados: DSpark, DFlash y Eagle3. En cuanto a las series de modelos objetivo, el proyecto actualmente admite Qwen3 y Gemma.

La apertura del código de DeepSpec integra la práctica de ingeniería de decodificación especulativa, que antes se dispersaba principalmente en equipos de investigación internos, en un conjunto de herramientas estandarizado, reproducible y escalable. Para los investigadores e ingenieros que desean acelerar la inferencia de sus propios modelos grandes, esto significa que pueden entrenar modelos borrador personalizados directamente sobre un marco maduro, omitiendo una gran cantidad de trabajo repetitivo de construcción de infraestructura.

Fuente de este artículo: Machine Heart

Advertencia de riesgo y cláusula de exención de responsabilidad

        El mercado tiene riesgos, la inversión requiere precaución. Este artículo no constituye un consejo de inversión personal y no toma en consideración los objetivos de inversión, situación financiera o necesidades particulares de usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones contenidas en este artículo se ajustan a su situación específica. Invertir según esto es bajo su propia responsabilidad.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios