По данным Beating, Sapient Intelligence опубликовала исходный код HRM-Text — текстовой модели для генерации текста с 1 миллиардом параметров на основе своей архитектуры иерархического рассуждения (HRM). Используя всего 40 миллиардов структурированных токенов, модель требует лишь 46 часов обучения на двух серверах с 8-GPU H100, при этом вычислительная стоимость составляет примерно $1 472 для версии 1B и $800 для варианта 0,6B; это означает сокращение прекомпьютинга в 130–600 раз по сравнению со стандартными моделями.
Прибавка в эффективности достигается за счет двукратного по времени рекуррентного дизайна с отдельными быстрыми и медленными модулями Transformer, которые чередуются на одном и том же входе и обмениваются информацией через добавление состояния. Полный инженерный фреймворк, включая извлечение данных и распределенное обучение PyTorch, также был открыт. Отметим, что опубликованные веса предназначены только для невыравненного прекомпьютинга: модель поддерживает задачи префиксного дополнения, но не может работать в роли разговорного ассистента.
Связанные новости