Sapient disponibiliza em open-source um modelo HRM-Text com 1 bilhão de parâmetros; alcança custo de treinamento de US$ 1.472 em 46 horas

Conforme Beating, Sapient Intelligence disponibilizou em código aberto o HRM-Text, um modelo de geração de texto com 1 bilhão de parâmetros baseado em sua arquitetura de modelo de raciocínio hierárquico (HRM). Usando apenas 40 bilhões de tokens estruturados, o modelo exige somente 46 horas de treinamento em dois servidores H100 com 8 GPUs, com custo de computação de aproximadamente US$ 1.472 para a versão de 1B e US$ 800 para a variante de 0,6B; isso representa uma redução de 130–600 vezes no custo de pré-treinamento em comparação com modelos padrão.

As melhorias de eficiência vêm de um design recorrente de dupla escala temporal, com módulos Transformer separados de resposta rápida e lenta que alternam sobre a mesma entrada e trocam informações via adição de estado. A estrutura completa de engenharia, incluindo extração de dados e treinamento distribuído com PyTorch, também foi disponibilizada em código aberto. Vale observar que os pesos liberados são apenas pré-treinamento não alinhado; o modelo suporta tarefas de conclusão por prefixo, mas não consegue funcionar como um assistente conversacional.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários