Nous Research faz open-source do Lighthouse Attention com aceleração de 17x no B200 para contexto de 512K

De acordo com Beating, a Nous Research disponibilizou em código aberto o Lighthouse Attention, um mecanismo de treinamento de longo contexto que atinge uma aceleração de 17x para processamento de texto com 512K de extensão usando apenas uma GPU B200, e uma aceleração de treinamento de ponta a ponta de 1,4–1,7x com 98K de extensão. A técnica utiliza uma abordagem de coarse-to-fine: ela primeiro faz uma varredura de resumos comprimidos em diferentes níveis para identificar segmentos centrais e, em seguida, encaminha o texto filtrado para o FlashAttention para o processamento. Nos testes com um modelo de 5,3 bilhões de parâmetros treinado em 50 bilhões de tokens, a abordagem não apenas reduziu o tempo de treinamento, mas também igualou ou superou o desempenho-base de um treinamento baseado exclusivamente em atenção.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários