Notícia da ME, 14 de maio (UTC+8): De acordo com monitoramento da Beating, a Nous Research lançou um novo método de pré-treinamento de grandes modelos chamado Token Stacking Training (TST). Esse método reduz o tempo de pré-treinamento em 2 a 3 vezes, com o mesmo volume de cálculo, comprimindo e empacotando tokens adjacentes no início do treinamento. O TST consiste em duas fases. Nos primeiros 20% a 40% do treinamento, o modelo não lê mais os tokens individualmente, mas agrupa os tokens adjacentes, calcula sua média e os insere como um pacote, prevendo no output quais tokens estarão contidos no próximo pacote (sem considerar a ordem interna). Em seguida, o modelo retorna à previsão convencional do próximo token. Como a arquitetura subjacente não foi modificada, o modelo resultante é idêntico aos modelos convencionais durante a inferência. O método já foi validado em modelos MoE com até 10 bilhões de parâmetros. Essa abordagem é essencialmente "trocar dados por poder computacional", acelerando o consumo de corpora para reduzir o tempo de cálculo. No entanto, se futuramente textos de alta qualidade se esgotarem, essa característica de consumo acelerado de dados pode tornar-se uma desvantagem. Além disso, algumas horas após a publicação do artigo, leitores observaram que o mecanismo do TST é extremamente semelhante ao de um trabalho anterior de 2024 intitulado "Beyond Next Token Prediction". A equipe dos autores reconheceu posteriormente no Hugging Face que se tratou de uma "convergência infeliz de pesquisas" e prometeu atualizar o artigo com as devidas citações. (Fonte: BlockBeats)
Método de treinamento TST da Nous Research gera controvérsia por semelhança com trabalho anterior
KuCoinFlashCompartilhar






A Nous Research revelou uma nova notícia sobre o lançamento de um token com seu método Token Stacking Training (TST) em 14 de maio (UTC+8), afirmando que reduz o tempo de pré-treinamento em 2 a 3 vezes sob a mesma carga computacional. O método empilha tokens adjacentes durante o treinamento inicial e prevê pacotes de tokens em vez de tokens individuais. Críticos rapidamente notaram a semelhança do TST com o artigo de 2024 "Beyond Next Token Prediction". A equipe admitiu a sobreposição como "infeliz pesquisa convergente" e prometeu adicionar as citações adequadas. Novos lançamentos de tokens frequentemente atraem escrutínio, e este caso não é exceção.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.