D’après Beating, Sapient Intelligence a open-sourcé HRM-Text, un modèle de génération de texte à 1 milliard de paramètres basé sur son architecture de modèle de raisonnement hiérarchique (HRM). En utilisant seulement 40 milliards de jetons structurés, le modèle ne nécessite que 46 heures d’entraînement sur deux serveurs H100 à 8 GPU, avec un coût de calcul d’environ 1 472 dollars pour la version 1B et 800 dollars pour la variante 0,6B ; cela représente une réduction de 130 à 600 fois du calcul d’entraînement préalable par rapport aux modèles standard.
Les gains d’efficacité proviennent d’une conception récurrente à double échelle de temps avec des modules Transformer rapides et lents distincts qui alternent sur la même entrée et échangent des informations via l’addition d’état. L’ensemble du cadre d’ingénierie, y compris l’extraction des données et l’entraînement distribué PyTorch, a également été open-sourcé. Notez que les poids publiés sont uniquement non alignés et limités à l’entraînement préalable ; le modèle prend en charge des tâches de complétion de préfixe, mais ne peut pas fonctionner comme un assistant conversationnel.