Sapient abre código del modelo HRM-Text con 1B parámetros; logra un costo de entrenamiento de $1,472 en 46 horas

Según Beating, Sapient Intelligence publicó como código abierto HRM-Text, un modelo de generación de texto con 1 mil millones de parámetros basado en su arquitectura de modelo de razonamiento jerárquico (HRM). Usando solo 40 mil millones de tokens estructurados, el modelo requiere únicamente 46 horas de entrenamiento en dos servidores H100 con 8 GPU, con un costo de cómputo de aproximadamente $1.472 para la versión de 1B y $800 para la variante de 0,6B; esto representa una reducción de 130–600 veces en el cómputo de preentrenamiento frente a los modelos estándar.

Las mejoras de eficiencia provienen de un diseño recurrente de doble escala temporal con módulos Transformer separados y rápidos y lentos que alternan sobre la misma entrada e intercambian información mediante suma de estado. También se ha publicado como código abierto el marco de ingeniería completo, incluida la extracción de datos y el entrenamiento distribuido en PyTorch. Tenga en cuenta que los pesos liberados son solo para preentrenamiento no alineado; el modelo admite tareas de finalización por prefijo, pero no puede funcionar como un asistente conversacional.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios