Sapient abre o código do modelo HRM-Text com 1 bilhão de parâmetros, com custo de treinamento 1.300 vezes menor

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Sapient Intelligence lançou notícias on-chain em 19 de maio (UTC+8), abrindo o código do HRM-Text, um modelo de texto com 1 bilhão de parâmetros e arquitetura de raciocínio hierárquico. O modelo utiliza raciocínio no espaço latente para reduzir os custos de pré-treinamento em 130 a 600 vezes. Foi treinado com 40 bilhões de tokens estruturados, uma fração dos dados utilizados por modelos semelhantes. A versão de 1 bilhão pode ser treinada em 46 horas por $1.472 usando dois servidores com 8 GPUs H100 cada. A versão de 0,6 bilhão custa $800. Todo o framework de engenharia, incluindo extração de dados e treinamento em PyTorch, também foi aberto. Dados de inflação e eficiência de treinamento são destaques principais nesta lançamento.

Mensagem AIMPACT, 19 de maio (UTC+8), segundo monitoramento da Beating, a Sapient Intelligence lançou o modelo base de geração de texto HRM-Text com 1 bilhão de parâmetros (1B). Trata-se de um modelo puramente pré-treinado baseado na arquitetura de modelo de raciocínio hierárquico (HRM). Ao introduzir raciocínio no espaço latente na camada inferior da arquitetura, reduziu o consumo de computação para pré-treinamento de modelos base em 130 a 600 vezes. Especificamente, o HRM-Text concluiu o pré-treinamento usando apenas 40 bilhões (40B) de tokens estruturados, cerca de um milésimo da quantidade de dados necessária para modelos convencionais da mesma escala. Testes oficiais mostraram que a versão de 1B pode ser treinada do zero em aproximadamente 46 horas usando dois servidores com 8 GPUs H100 cada, com custo computacional de cerca de 1.472 dólares; já a versão de 0,6B requer apenas 50 horas em um único nó, com custo de hardware de aproximadamente 800 dólares. Todo o framework de engenharia, incluindo extração de dados, empacotamento de sequências e treinamento distribuído em PyTorch, foi lançado simultaneamente como código aberto. O suporte para redução extrema de custos reside no design único de ciclo de dupla escala temporal (Dual-timescale recurrent). O modelo incorpora dois conjuntos de módulos Transformer: um rápido (camadas inferiores) e um lento (camadas superiores). Esses dois conjuntos iteram alternadamente sobre o mesmo lote de entrada e trocam informações por meio da soma dos estados. Esse design permite que o modelo, mantendo o número total de parâmetros físicos fixo, expanda dinamicamente a profundidade computacional aumentando o número de iterações. A queda drástica na barreira de pré-treinamento permite que muitas teorias de modelos anteriormente descartadas por causa do alto custo computacional agora possam ser validadas com baixo custo. É importante notar que a versão liberada agora é apenas o peso pré-treinado não alinhado; o modelo só pode executar tarefas de continuação de prefixo e não pode ser usado diretamente como assistente de perguntas e respostas. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.