Mensagem AIMPACT, 16 de maio (UTC+8), segundo monitoramento da Beating, a Nous Research lançou como código aberto o mecanismo de pré-treinamento de longo contexto Lighthouse Attention. Ao processar textos de 512K de comprimento em uma única GPU B200, essa solução é cerca de 17 vezes mais rápida que os mecanismos tradicionais e alcança aceleração de 1,4 a 1,7 vezes no treinamento end-to-end em textos de 98K. Os mecanismos tradicionais de atenção exigem o cálculo das relações entre todos os pares de palavras, e o consumo de poder computacional aumenta exponencialmente com o comprimento do texto. O Lighthouse Attention adota uma abordagem de filtragem grossa seguida por cálculo preciso: primeiro, rapidamente examina resumos comprimidos do texto em diferentes níveis, pontua e seleciona fragmentos-chave para formar um texto curto, que é então encaminhado diretamente ao operador eficiente já existente FlashAttention. Como a lógica de filtragem foi completamente desacoplada do núcleo, os desenvolvedores economizam o esforço de escrever código de baixo nível e não precisam adicionar objetivos de treinamento adicionais. Soluções anteriores com abordagens semelhantes frequentemente apresentavam efeitos colaterais, pois os modelos, ao se acostumarem com leitura pulada, perdiam facilmente a capacidade original de leitura detalhada palavra por palavra. Para evitar essa armadilha, a equipe de pesquisa fez o modelo executar a maior parte do treinamento no modo acelerado e apenas no final, por um breve período, retornar ao cálculo tradicional de atenção completa para adaptação. Em testes práticos com um modelo de 530 milhões de parâmetros e 50 bilhões de tokens de dados de treinamento, o modelo treinado dessa maneira não apenas reduziu significativamente o tempo necessário, mas também alcançou ou superou completamente o desempenho da versão base treinada integralmente com o método tradicional. (Fonte: BlockBeats)
Nous Research libera o Lighthouse Attention, alcançando ganho de velocidade de 17x no B200
KuCoinFlashCompartilhar






A fonte de notícias on-chain MetaEra relatou em 16 de maio (UTC+8) que a Nous Research open-sourcou seu mecanismo Lighthouse Attention para pré-treinamento com contexto longo. O método oferece 17x mais velocidade de computação em uma única GPU B200 para texto de 512K de comprimento e 1,4–1,7x mais velocidade de treinamento em comprimento de 98K. Ele utiliza um processo em duas etapas para evitar codificação de baixo nível ou objetivos de treinamento adicionais. Em testes, um modelo de 530 milhões de parâmetros treinado em 50 bilhões de tokens igualou ou superou métodos tradicionais, reduzindo o tempo de treinamento. Plataformas de notícias cripto estão destacando as ganhos de eficiência para desenvolvedores e pesquisadores.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.