El equipo de MIT de Kaiming He lanza un modelo de difusión de lenguaje ELF con 45B de tokens de entrenamiento

GateNews

2026-05-13 05:25:34

Según Beating, el equipo de MIT Kaiming He publicó recientemente ELF (Embedded Language Flows), un modelo de difusión de lenguaje que se aparta del enfoque autoregresivo de “predecir el siguiente token” utilizado por los modelos tipo GPT. En su lugar, ELF realiza la generación de texto en un espacio de incrustaciones continuo, convirtiendo en tokens discretos solo en el paso final.

En los puntos de referencia de generación incondicional en OpenWebText, ELF-B, con 105M parámetros, logró aproximadamente 24,1 de perplexidad de generación (Gen. PPL) con muestreo de 32 pasos, superando varios modelos base de lenguaje de difusión discretos y continuos. En particular, ELF-B necesitó solo aproximadamente 45 mil millones de tokens de entrenamiento, unas diez veces menos que métodos comparables que normalmente superan 500 mil millones de tokens.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

La UE analiza unirse a la Alianza de tecnología Pax Silica, respaldada por EE. UU., en las próximas semanas

Noticias de la industria de la IA

Según Bloomberg, la Unión Europea está en conversaciones para unirse a Pax Silica, una alianza respaldada por EE. UU. para semiconductores, infraestructura de IA, minerales críticos y centros de datos, como parte de los esfuerzos para reducir la dependencia de China. La Comisión Europea planea enviar a un alto funcionario a EE. UU. en las próximas semanas para revisar los términos. El movimiento llega después de que Suecia y Finlandia ya se unieran a la alianza, y de que la UE busca el apoyo de

GateNewsHace6m

Samsung planea la producción masiva en el 4T de módulos de memoria para servidores de IA CXL 3.1

Noticias de la industria de la IA

De acuerdo con The Korea Herald, Samsung Electronics planea comenzar la producción masiva de sus módulos de memoria CXL 3.1 para servidores de IA en el cuarto trimestre, después de los envíos de muestra en el tercer trimestre. El módulo CMM-D 3.1 combina DRAM y un controlador CXL en una sola placa, con capacidad de hasta 1 terabyte y un ancho de banda de 72 gigabytes por segundo en PCIe 6.0. Samsung anteriormente envió muestras de CXL 2.0 a más de 40 empresas, incluidas Microsoft y Amazon.

GateNewsHace16m

El ex investigador de IA de Alibaba, Linjun Lin, lanza un nuevo laboratorio de IA valorado en alrededor de 2 mil millones de dólares

Noticias de la industria de la IA

Según The Information, Linjun Lin, un ex investigador de IA en Alibaba, recientemente fundó un nuevo laboratorio de inteligencia artificial. Se estima que la puesta en marcha tiene un valor de aproximadamente 2 mil millones de dólares.

GateNewsHace18m

Anthropic está en conversaciones para adquirir la startup de herramientas para desarrolladores Stainless por al menos 300 millones de dólares

Noticias de la industria de la IA

Según The Information, Anthropic está en conversaciones avanzadas para adquirir la startup de herramientas para desarrolladores Stainless por al menos 300 millones de dólares. Las herramientas para desarrolladores de Stainless han sido adoptadas por OpenAI y Google.

GateNewsHace37m

Andrew Ng: “La IA no provocará una ola masiva de desempleo”, la contratación en software sigue siendo sólida

Noticias de la industria de la IA

El reconocido estudioso del área de IA y fundador de DeepLearning.AI, Andrew Ng (吳恩達), publicó el 12 de mayo en X y en el boletín electrónico de The Batch que la IA “no provocará una ola masiva de desempleo (jobpocalypse)”, refutando directamente el relato de que la IA causará pánico por el desempleo. De acuerdo con el tuit original de Andrew Ng, la publicación obtuvo más de 2.600 me gusta y fue una de las perspectivas sobre IA más comentadas de esa semana. La tesis central de Ng: la contratació

ChainNewsAbmediahace2h

El supernodo de 256 tarjetas Kunlun Chip Tian Chi de Baidu se lanzará en junio con una mejora del 25% en el rendimiento

Noticias de la industria de la IA

Según Baidu, el 13 de mayo, durante la conferencia de desarrolladores Create 2026, la empresa anunció que su supernodo Kunlun Chip Tian Chi de 256 tarjetas se lanzará oficialmente en junio, con un rendimiento de procesamiento mejorado un 25% frente a la generación anterior y la eficiencia de inferencia aumentada un 50%. El supernodo ya completó la adaptación para modelos generalistas, incluidos Wenxin, DeepSeek, GLM y MiniMax, y la latencia de extremo a extremo se optimizó un 50% mediante una ar

GateNewshace2h

Comentar

0/400

Sin comentarios