Nous Research libera o Lighthouse Attention, alcançando ganho de velocidade de 17x no B200

Mensagem AIMPACT, 16 de maio (UTC+8), segundo monitoramento da Beating, a Nous Research lançou como código aberto o mecanismo de pré-treinamento de longo contexto Lighthouse Attention. Ao processar textos de 512K de comprimento em uma única GPU B200, essa solução é cerca de 17 vezes mais rápida que os mecanismos tradicionais e alcança aceleração de 1,4 a 1,7 vezes no treinamento end-to-end em textos de 98K. Os mecanismos tradicionais de atenção exigem o cálculo das relações entre todos os pares de palavras, e o consumo de poder computacional aumenta exponencialmente com o comprimento do texto. O Lighthouse Attention adota uma abordagem de filtragem grossa seguida por cálculo preciso: primeiro, rapidamente examina resumos comprimidos do texto em diferentes níveis, pontua e seleciona fragmentos-chave para formar um texto curto, que é então encaminhado diretamente ao operador eficiente já existente FlashAttention. Como a lógica de filtragem foi completamente desacoplada do núcleo, os desenvolvedores economizam o esforço de escrever código de baixo nível e não precisam adicionar objetivos de treinamento adicionais. Soluções anteriores com abordagens semelhantes frequentemente apresentavam efeitos colaterais, pois os modelos, ao se acostumarem com leitura pulada, perdiam facilmente a capacidade original de leitura detalhada palavra por palavra. Para evitar essa armadilha, a equipe de pesquisa fez o modelo executar a maior parte do treinamento no modo acelerado e apenas no final, por um breve período, retornar ao cálculo tradicional de atenção completa para adaptação. Em testes práticos com um modelo de 530 milhões de parâmetros e 50 bilhões de tokens de dados de treinamento, o modelo treinado dessa maneira não apenas reduziu significativamente o tempo necessário, mas também alcançou ou superou completamente o desempenho da versão base treinada integralmente com o método tradicional. (Fonte: BlockBeats)