NVIDIA y el MIT publican el framework Lightning OPD, mejorando 4x la eficiencia de la destilación de modelos mientras eliminan los problemas de memoria de la GPU

GateNews

2026-05-12 11:13:28

Según los informes, investigadores de NVIDIA y del MIT lanzaron Lightning OPD (Offline On-Policy Distillation), un nuevo marco de post-entrenamiento para modelos de lenguaje grandes que elimina la necesidad de mantener un modelo docente en funcionamiento durante el entrenamiento. Al precomputar las log-probabilidades del modelo docente sin conexión, el marco mejora la eficiencia del entrenamiento en 4x y libera todos los recursos de GPU para el entrenamiento del modelo estudiante.

En pruebas con 8 GPU NVIDIA H100, Lightning OPD destiló con éxito Qwen3-30B-A3B-Base (un modelo MoE con 30 mil millones de parámetros) y logró 71,0 en el benchmark AIME 2024, mientras que el OPD estándar se quedó sin memoria en el mismo hardware. Para el modelo Qwen3-8B más pequeño, el marco requirió solo 30 horas de GPU para alcanzar 69,9 puntos.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

La plataforma B.AI agrega 8.756 usuarios el 11 de mayo, DeepSeek-V4 impulsa el 60% del consumo de tokens

Noticias de la industria de la IA

Según B.AI, la plataforma añadió 8.756 nuevos usuarios el 11 de mayo, mientras que la adopción de pagos de Stripe entre los usuarios pagadores principales alcanzó el 69,0%, lo que refleja una mejor retención de los desarrolladores tradicionales y de los usuarios de nivel producción. Los modelos de la serie DeepSeek-V4 representaron casi el 60% del consumo de tokens, aprovechando la latencia ultrabaja, la alta concurrencia y las capacidades de rendimiento para servir como un motor central de ejec

GateNewsHace13m

Esta semana se intensifican los catalizadores macro: una visión general desde la publicación del IPC hasta la revisión del proyecto de ley CLARITY

Macroeconomía Política monetaria Geopolítica Índices Acciones Materias primas Forex Noticias de la industria de la IA

2026 年 5 月中旬，加密货币市场正经历一个极为罕见的宏观敏感窗口。美国 4 月 CPI 数据于 5 月 12 日公布，川习北京峰会定于 5 月 13 日至 15 日举行，参议院银行委员会则将在 5 月 14 日审议 CLARITY 法案（数字资产市场清晰法案）。三个独立但高度关联的事件在短短四天内集中落地，形成对加密资产定价机制的阶段性压力测试。 5 月 12–15 日的事件日历与信息密度分布？从信息释放节奏来看，本周的关键节点呈“三峰”排列：周二的 CPI 数据率先打开第一个信息窗口，周四的 CLARITY 法案审议与周四至周五的川习峰会几乎同步推进。CPI 数据的市场消化窗口约为数小时，主要影响利率预期定价；CLARITY 法案审议的决定性在于它可能推动立法进入参议院全体表决阶段，进而影响数字资产的长期监管预期；川习峰会的博弈结果则会在更大范围内冲击全球风险资产的估值中枢。三个事件共同营造出高度压缩的时间窗口，市场面临同时消化多个方向信息的压力，这本身就是波动率提升的典型前提条件。今晚的 CPI 数据为何成为加密市场的“第一道关口”？摩根士丹利全球宏观策略主管 Matt

GateInstantTrendsHace36m

La startup de voz con IA Vapi completa la $50M serie B liderada por Peak XV Partners

Noticias de la industria de la IA

Según TechCrunch, Vapi, una startup de voz con IA, completó una ronda de financiación de Serie B de 50 millones de dólares liderada por Peak XV Partners, con una valoración post-money de aproximadamente 500 millones de dólares. Ring, la subsidiaria de Amazon, desplegó Vapi para gestionar el 100% de sus llamadas entrantes después de evaluar a más de 40 proveedores de voz con IA, ayudando a impulsar la ronda de financiación.

GateNewshace1h

La precisión de GPT-5.4 cae de 100% a 54% en ARC-AGI tras la resumir repetidamente la memoria

Noticias de la industria de la IA

De acuerdo con Beating, un reciente estudio sobre la memoria de agentes de Dylan Zhang, estudiante de doctorado en la Universidad de Illinois, encontró que resumir repetidamente las experiencias del modelo puede degradar el rendimiento en lugar de mejorarlo. En tareas ARC-AGI, GPT-5.4 logró 100% de precisión en 19 problemas sin memoria, pero después de múltiples rondas de compresión de memoria basadas en trayectorias de solución correctas, la precisión cayó a 54%. De manera similar, en tareas de

GateNewshace1h

OpenAI amplía el programa de acceso confiable a decenas de empresas europeas el 12 de mayo

Noticias de la industria de la IA

Según los informes del 12 de mayo, OpenAI anunció planes para ampliar su Programa de Acceso de Confianza a docenas de empresas europeas.

GateNewshace1h

¡Transformers en versión humana! Tech de Youshu presenta el primer vehículo robótico de producción masiva del mundo, con un precio de 570 mil dólares.

Noticias de la industria de la IA

La empresa china de robótica Unitree Robotics (宇树科技) con sede en Hangzhou anunció el 12 de mayo su nuevo producto GD01: un mecha transportable tripulado que puede cambiar libremente entre los modos bípedo humanoide y de escalada cuadrúpeda. Se puede decir que esta presentación traslada a la vida real las escenas de las películas de ciencia ficción “Transformers” y “Pacific Rim”. Esta vez, el lanzamiento no es solo una maravilla tecnológica, sino que también refleja el rápido impulso de la indust

ChainNewsAbmediahace2h

Comentar

0/400

Sin comentarios