Sapient abre o código do modelo HRM-Text com 1 bilhão de parâmetros, com custo de treinamento 1.300 vezes menor

Mensagem AIMPACT, 19 de maio (UTC+8), segundo monitoramento da Beating, a Sapient Intelligence lançou o modelo base de geração de texto HRM-Text com 1 bilhão de parâmetros (1B). Trata-se de um modelo puramente pré-treinado baseado na arquitetura de modelo de raciocínio hierárquico (HRM). Ao introduzir raciocínio no espaço latente na camada inferior da arquitetura, reduziu o consumo de computação para pré-treinamento de modelos base em 130 a 600 vezes. Especificamente, o HRM-Text concluiu o pré-treinamento usando apenas 40 bilhões (40B) de tokens estruturados, cerca de um milésimo da quantidade de dados necessária para modelos convencionais da mesma escala. Testes oficiais mostraram que a versão de 1B pode ser treinada do zero em aproximadamente 46 horas usando dois servidores com 8 GPUs H100 cada, com custo computacional de cerca de 1.472 dólares; já a versão de 0,6B requer apenas 50 horas em um único nó, com custo de hardware de aproximadamente 800 dólares. Todo o framework de engenharia, incluindo extração de dados, empacotamento de sequências e treinamento distribuído em PyTorch, foi lançado simultaneamente como código aberto. O suporte para redução extrema de custos reside no design único de ciclo de dupla escala temporal (Dual-timescale recurrent). O modelo incorpora dois conjuntos de módulos Transformer: um rápido (camadas inferiores) e um lento (camadas superiores). Esses dois conjuntos iteram alternadamente sobre o mesmo lote de entrada e trocam informações por meio da soma dos estados. Esse design permite que o modelo, mantendo o número total de parâmetros físicos fixo, expanda dinamicamente a profundidade computacional aumentando o número de iterações. A queda drástica na barreira de pré-treinamento permite que muitas teorias de modelos anteriormente descartadas por causa do alto custo computacional agora possam ser validadas com baixo custo. É importante notar que a versão liberada agora é apenas o peso pré-treinado não alinhado; o modelo só pode executar tarefas de continuação de prefixo e não pode ser usado diretamente como assistente de perguntas e respostas. (Fonte: BlockBeats)