De acordo com Beating, a Nous Research disponibilizou em código aberto o Lighthouse Attention, um mecanismo de treinamento de longo contexto que atinge uma aceleração de 17x para processamento de texto com 512K de extensão usando apenas uma GPU B200, e uma aceleração de treinamento de ponta a ponta de 1,4–1,7x com 98K de extensão. A técnica utiliza uma abordagem de coarse-to-fine: ela primeiro faz uma varredura de resumos comprimidos em diferentes níveis para identificar segmentos centrais e, em seguida, encaminha o texto filtrado para o FlashAttention para o processamento. Nos testes com um modelo de 5,3 bilhões de parâmetros treinado em 50 bilhões de tokens, a abordagem não apenas reduziu o tempo de treinamento, mas também igualou ou superou o desempenho-base de um treinamento baseado exclusivamente em atenção.
Related News
A OpenAI adiciona detecção de diálogos de crise no ChatGPT, melhorando a capacidade de alertar sobre violência autoagressiva
Bittensor TAO ultrapassa US$ 300 enquanto a demanda por cripto de IA dispara
Especialistas dizem que provas zk dão uma vantagem aos DePINs à medida que a confiança da IA aumenta