По данным Beating, Sapient Intelligence опубликовала исходный код HRM-Text — текстовой модели для генерации текста с 1 миллиардом параметров на основе своей архитектуры иерархического рассуждения (HRM). Используя всего 40 миллиардов структурированных токенов, модель требует лишь 46 часов обучения на двух серверах с 8-GPU H100, при этом вычислительная стоимость составляет примерно $1 472 для версии 1B и $800 для варианта 0,6B; это означает сокращение прекомпьютинга в 130–600 раз по сравнению со стандартными моделями.

Прибавка в эффективности достигается за счет двукратного по времени рекуррентного дизайна с отдельными быстрыми и медленными модулями Transformer, которые чередуются на одном и том же входе и обмениваются информацией через добавление состояния. Полный инженерный фреймворк, включая извлечение данных и распределенное обучение PyTorch, также был открыт. Отметим, что опубликованные веса предназначены только для невыравненного прекомпьютинга: модель поддерживает задачи префиксного дополнения, но не может работать в роли разговорного ассистента.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

1ч назад

Отчёт SHED Федеральной резервной системы за 2025 год: 25% работников используют ИИ, а использование криптовалют растёт до 10%

1ч назад

SemiAnalysis тестирует ИИ-агентов: 20 часов работы стоят всего $21,33, ROI достигает 93,8x

8ч назад

Salesforce планирует потратить $300M на токены Anthropic в 2026 году на разработку ИИ для программирования

11ч назад

GPT-5 достигает точности 62,7% на инцидентах в продакшене, но не дотягивает до экспертного базового уровня 72,7%

05-18 02:55

ИИ-модели Китая генерируют в 1,81 раза больше запросов, чем в США; предварительный просмотр Tencent Hy3 взлетает на 210% и выходит в лидеры

Детальный анализ