O ex-aluno da Tsinghua Wang Guan alcança o SOTA com 1/900 tokens e 1/432 de computação no HRM-Text

Quebrando o paradigma tradicional de pré-treinamento de grandes modelos, a equipe de Wang Guan, ex-aluno dos anos 2000 da Tsinghua, lança mais uma inovação:

Eles substituíram o Transformer padrão pelo modelo de ciclo hierárquico (HRM) e propuseram o HRM-Text, um pré-treinamento eficiente que vai além do Scaling.

Tsinghua

Link do artigo: https://arxiv.org/abs/2605.20613

Mesmo utilizando cerca de 100 a 900 vezes menos tokens de treinamento e 96 a 432 vezes menos computação estimada do que o modelo baseline padrão, o HRM-Text ainda alcança desempenho comparável aos modelos de código aberto com 2B a 7B parâmetros.

Ao mesmo tempo, utilizando 1B parâmetros, 40B tokens não repetidos e um custo de treinamento de aproximadamente 1500 dólares, o HRM-Text obteve os seguintes resultados nos principais benchmarks: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Tsinghua

Figura | Eficiência de pré-treinamento.

Com base nisso, eles afirmaram explicitamente: que os pré-requisitos estruturais e os objetivos de treinamento direcionados podem reduzir significativamente a barreira para o pré-treinamento. Esse esquema de treinamento torna viável o treinamento de modelos básicos do zero.

Como o HRM-Text foi projetado?

O pré-treinamento de grandes modelos de linguagem (LLM) está cada vez mais dependente de poucas instituições com recursos suficientes de computação e dados. Treinar um modelo base competitivo geralmente exige trilhões de tokens, milhares de GPUs e até milhões de dólares em investimento em computação.

No entanto, o modelo de treinamento atual não é eficiente, pois grande parte do cálculo é consumida por tokens irrelevantes, como prompts, preenchimento de formato e ruído da página web, resultando em grande parte da capacidade de treinamento não sendo diretamente aplicada à inferência.

Neste trabalho, a equipe de pesquisa redesenhou a arquitetura e os objetivos de treinamento para tornar o pré-treinamento do HRM-Text relativamente mais eficiente.

Arquitetura: Utiliza um modelo cíclico hierárquico com duas escalas temporais, dividindo o cálculo em um módulo lento H e um módulo rápido L. Enquanto o Transformer padrão realiza uma única passagem direta para cada token, o HRM realiza múltiplas atualizações recursivas no mesmo token. Os módulos H e L representam cada um metade dos parâmetros principais recursivos, com o volume total de cálculo equivalente aproximadamente a quatro expansões recursivas sobre o mesmo conjunto de parâmetros, aumentando a profundidade computacional sem aumentar o número de parâmetros.

Objetivo de treinamento: Não mais utilizar o pré-treinamento autoregressivo completo padrão, mas sim treinar diretamente em pares instrução-resposta, calculando a perda apenas na parte da resposta, e combinando com máscara PrefixLM para permitir atenção bidirecional na parte da instrução e geração com máscara causal na parte da resposta.

Tsinghua

Figura | Arquitetura HRM-Text.

Para aumentar a estabilidade do treinamento recursivo, a equipe de pesquisa introduziu o MagicNorm e o Warmup Deep Credit Assignment.

MagicNorm é uma estratégia de normalização híbrida que aproveita a assimetria entre a profundidade do cálculo direto e reverso sob o BPTT truncado, aplicando PreNorm dentro do módulo e adicionando adicionalmente normalização na saída do módulo, melhorando assim a estabilidade do treinamento recursivo profundo.

O Warmup Deep Credit Assignment transmite gradientes apenas para os últimos 2 passos recursivos no início do treinamento, expandindo-se linearmente para os últimos 5 passos. Esse mecanismo de treinamento permite que o modelo converja de forma estável em caminhos de crédito mais curtos, introduzindo gradualmente dependências mais longas.

How effective is it?

Os resultados experimentais demonstram que o HRM-Text apresenta vantagens significativas em eficiência arquitetural, objetivo de treinamento e desempenho geral.

1. Sob capacidade de treinamento fixa, a arquitetura cíclica é mais eficaz?

Os resultados mostram que, sob condições de alinhamento de FLOPs, o HRM 1B supera o Transformer 1B, Transformer 3B, Looped Transformer 1B e RINS 1B na maioria dos benchmarks; a comparação com o TRM também indica que o treinamento do HRM é mais estável.

Tsinghua

Figura | Comparação de desempenho e estabilidade com o modelo Transformer. O HRM manteve dinâmicas de treinamento estáveis em todos os tamanhos, enquanto o modelo Transformer apresentou instabilidade severa na escala de 1 bilhão de parâmetros. Além disso, na escala de 0,6B, o HRM conseguiu desempenho competitivo na maioria dos benchmarks com apenas metade da quantidade de cálculo necessária pelo modelo Transformer.

2. Os objetivos de conclusão da tarefa e o PrefixLM são úteis?

Os experimentos de ablação mostram que, sob condições de alinhamento de FLOPs, o MMLU do Transformer de 1B aumentou de 40,55 no modelo autoregressivo padrão para 47,72 após a introdução do objetivo de conclusão de tarefas, para 53,15 após a adição do PrefixLM e para 60,73 após a substituição pela arquitetura HRM.

Tsinghua

Figura | Comparação de desempenho entre diferentes arquiteturas de modelo e objetivos de treinamento

3. Qual é a eficiência do HRM-Text em comparação com os modelos abertos contemporâneos?

O HRM-Text 1B atingiu 60,7, 81,9, 82,2, 84,5 e 56,2 nos conjuntos MMLU, ARC-C, DROP, GSM8K e MATH, respectivamente. Em comparação com modelos abertos que geralmente possuem orçamentos de treinamento muito maiores, ele alcançou um desempenho na faixa de modelos abertos de 2B a 7B bilhões de parâmetros, utilizando apenas 40 bilhões de tokens únicos e 1 bilhão de parâmetros; exigindo até 900 vezes menos tokens de treinamento e até 432 vezes menos custo computacional.

Tsinghua

Figura | Resultados da avaliação do HRM-Text 1B em comparação com modelos totalmente abertos e modelos com pesos abertos no mesmo período

4. A estrutura de ciclo trouxe maior profundidade efetiva?

Os resultados mostram que o Transformer padrão e o Looped Transformer atingem estabilidade em camadas mais rasas, enquanto o HRM mantém mudanças mais pronunciadas entre blocos, menor similaridade coseno e valores mais altos de KL do logit lens em camadas mais profundas.

Tsinghua

Figura | Análise de profundidade eficaz.

Tsinghua

Figura | Análise KL Logit Lens camada a camada.

Limitações e direções futuras

Embora o HRM-Text tenha demonstrado desempenho robusto em tarefas intensivas em inferência, esse método ainda apresenta limitações e aponta direções para pesquisas futuras.

1. Desacoplamento entre "conhecimento" e "raciocínio"

Atualmente, a cobertura mais ampla de conhecimento factual ainda depende mais do tamanho do modelo e da amplitude dos dados. O HRM-Text foi treinado apenas em 40 bilhões de tokens únicos, e as fontes explícitas de conhecimento representam apenas uma parte dos dados mistos formatados para a tarefa. Futuramente, os pesquisadores precisam projetar separadamente um núcleo de raciocínio compacto e um armazenamento externo de fatos, delegando a amplitude do conhecimento a corpora selecionados, módulos de reforço por busca ou memórias aprendíveis.

2. Tempo de cálculo adaptativo

O agendamento cíclico do HRM-Text aumenta a profundidade serial efetiva, mas também significa que o modelo deve executar um número fixo de passos recursivos durante a inferência. Futuramente, uma direção valiosa a ser explorada é introduzir mecanismos de tempo de cálculo adaptativo, permitindo que amostras simples parem o cálculo mais cedo e reservem o orçamento cíclico completo para amostras difíceis, reduzindo o custo de inferência.

3. O escopo atual de validação em escala ainda é limitado

O experimento atual de scaling cobre apenas o grupo de controle Transformer com 3B parâmetros e o HRM-Text com 1B parâmetros. A equipe de pesquisa indica que se a vantagem de eficiência semelhante pode ser mantida em modelos maiores ainda precisa ser verificada em trabalhos futuros.

4. PrefixLM e framework de inferência

Atualmente, o PrefixLM ainda enfrenta certas limitações de implementação prática em ambientes de produção. Embora seja possível executá-lo em frameworks padrão de inferência de geração de texto, como o vLLM, isso exige que o framework suporte máscaras de atenção personalizadas durante a fase de prefill. Ao expandi-lo para cenários de diálogos multirround, é necessário projetar adicionalmente um mecanismo de KV-cache que garanta visibilidade bidirecional dentro dos fragmentos do usuário, enquanto mantém a restrição causal no processo de geração do assistente.

Para mais detalhes técnicos, consulte o artigo original.

Este artigo é do número de identificação “SciTouTiao” do WeChat, autor: Xia Qiansi