El exalumno de Tsinghua Wang Guan logra el SOTA con HRM-Text usando 1/900 tokens y 1/432 de cómputo

Rompiendo el paradigma tradicional de preentrenamiento de grandes modelos, el equipo de Wang Guan, egresado de los 00 de Tsinghua, presenta su nueva creación:

Utilizan el modelo de bucle jerárquico (HRM) para reemplazar al Transformer estándar, proponiendo HRM-Text, un preentrenamiento eficiente que va más allá del Scaling.

Tsinghua

Enlace al artículo: https://arxiv.org/abs/2605.20613

HRM-Text logra un rendimiento comparable al de modelos de código abierto con 2B a 7B parámetros, utilizando solo aproximadamente 100-900 veces menos tokens de entrenamiento y 96-432 veces menos cálculo estimado que el modelo baseline estándar.

Al mismo tiempo, con 1B parámetros, 40B tokens no repetidos y un costo de entrenamiento de aproximadamente 1500 dólares, HRM-Text logró los siguientes resultados en las principales pruebas de referencia: MMLU 60.7%, ARC-C 81.9%, DROP 82.2%, GSM8K 84.5%, MATH 56.2%.

Tsinghua

Figura | Eficiencia de preentrenamiento.

Sobre esta base, ellos plantean claramente: los conocimientos previos estructurales y los objetivos de entrenamiento específicos pueden reducir significativamente el umbral de preentrenamiento. Este enfoque de entrenamiento hace factible el entrenamiento desde cero de modelos base.

¿Cómo se diseñó HRM-Text?

El entrenamiento previo de modelos de lenguaje grandes (LLM) depende cada vez más de unas pocas instituciones con suficiente poder de cómputo y recursos de datos. Entrenar un modelo base competitivo a menudo requiere trillones de tokens, miles de GPU e incluso millones de dólares en inversión en cómputo.

Sin embargo, el modelo de entrenamiento actual no es eficiente, ya que una gran cantidad de cálculos se consumen en tokens irrelevantes como indicaciones, relleno de formato y ruido web, lo que hace que gran parte de la capacidad de entrenamiento no sirva directamente para la inferencia.

En este trabajo, el equipo de investigación rediseñó la arquitectura y los objetivos de entrenamiento para que el preentrenamiento de HRM-Text sea relativamente más eficiente.

Arquitectura: se utiliza un modelo cíclico jerárquico con dos escalas temporales, dividiendo el cálculo en un módulo lento H y un módulo rápido L. Mientras que el Transformer estándar realiza una sola pasada hacia adelante por token, HRM realiza múltiples actualizaciones recursivas sobre el mismo token. Los módulos H y L representan cada uno la mitad de los parámetros del núcleo recursivo, y el cálculo total es aproximadamente equivalente a realizar 4 expansiones recursivas sobre el mismo conjunto de parámetros, aumentando la profundidad de cálculo sin incrementar la cantidad de parámetros.

Objetivo de entrenamiento: ya no utilizar el preentrenamiento autoregresivo estándar en texto completo, sino entrenar directamente en pares instrucción-respuesta, calculando la pérdida únicamente en la parte de respuesta, y combinándolo con una máscara PrefixLM para permitir atención bidireccional en la parte de instrucción y generación con máscara causal en la parte de respuesta.

Tsinghua

Figura | Arquitectura HRM-Text.

Para mejorar la estabilidad del entrenamiento recursivo, el equipo de investigación introdujo MagicNorm y Warmup Deep Credit Assignment.

MagicNorm es una estrategia de normalización híbrida que aprovecha la asimetría entre la profundidad de cálculo hacia adelante y hacia atrás bajo el BPTT truncado, aplicando PreNorm dentro del módulo y añadiendo adicionalmente normalización en la salida del módulo para mejorar la estabilidad del entrenamiento recursivo profundo.

Warmup Deep Credit Assignment solo retropropaga gradientes en los últimos 2 pasos recursivos durante las etapas iniciales de entrenamiento, extendiéndose linealmente hasta los últimos 5 pasos. Este mecanismo de entrenamiento permite que el modelo converja de manera estable en rutas de crédito más cortas, introduciendo gradualmente dependencias más largas.

How effective is it?

Los resultados experimentales demuestran que HRM-Text presenta ventajas significativas en eficiencia arquitectónica, objetivos de entrenamiento y rendimiento general.

1. Under fixed training compute power, is a cyclic architecture more efficient?

Los resultados muestran que, bajo condiciones de alineación de FLOPs, HRM 1B supera a Transformer 1B, Transformer 3B, Looped Transformer 1B y RINS 1B en la mayoría de los benchmarks; la comparación con TRM también indica que el entrenamiento de HRM es más estable.

Tsinghua

Figura | Comparación del rendimiento y la estabilidad con el modelo Transformer. HRM mantuvo dinámicas de entrenamiento estables en todos los tamaños, mientras que el modelo Transformer presentó inestabilidad grave a escala de 1 mil millones de parámetros. Además, a escala de 0.6B, HRM logró un rendimiento competitivo en la mayoría de los benchmarks con solo la mitad de la cantidad de cálculo requerida por el modelo Transformer.

2. ¿Ayudan los objetivos de finalización de tareas y el PrefixLM?

Los experimentos de ablación muestran que, bajo condiciones de alineación de FLOPs, el MMLU del Transformer de 1B aumenta desde 40.55 en el enfoque autoregresivo estándar hasta 47.72 tras introducir el objetivo de finalización de tareas, a 53.15 tras incorporar PrefixLM, y a 60.73 tras cambiar a la arquitectura HRM.

Tsinghua

Figura | Comparación de rendimiento entre diferentes arquitecturas de modelos y objetivos de entrenamiento

3. ¿Cómo es la eficiencia de HRM-Text en comparación con los modelos abiertos contemporáneos?

HRM-Text 1B alcanza 60.7, 81.9, 82.2, 84.5 y 56.2 en MMLU, ARC-C, DROP, GSM8K y MATH, respectivamente. En comparación con modelos abiertos que suelen tener mayores presupuestos de entrenamiento, logra entrar en el rango de rendimiento de modelos abiertos de 2B a 7B parámetros utilizando solo 40 mil millones de tokens únicos y 1B parámetros; requiere hasta 900 veces menos tokens de entrenamiento y hasta 432 veces menos carga computacional.

Tsinghua

Figura | Resultados de la evaluación de HRM-Text 1B en comparación con modelos completamente abiertos y modelos de pesos abiertos del mismo período

4. ¿El ciclo de estructura trajo una mayor profundidad efectiva?

Los resultados muestran que el Transformer estándar y el Transformer bucleado alcanzan estabilidad en capas más superficiales, mientras que el HRM mantiene diferencias más pronunciadas entre representaciones de bloques, menor similitud coseno y valores más altos de KL del logit lens en capas más profundas.

Tsinghua

Figura | Análisis de profundidad efectiva.

Tsinghua

Figura | Análisis KL de Logit Lens por capas.

Deficiencias y dirección futura

Aunque HRM-Text ha demostrado un rendimiento sólido en tareas intensivas de razonamiento, este método aún presenta limitaciones y plantea direcciones para futuras investigaciones.

1. Desacoplamiento entre "conocimiento" y "razonamiento"

Actualmente, la cobertura más amplia de conocimientos factuales sigue dependiendo más del tamaño del modelo y la amplitud de los datos. HRM-Text se entrenó solo en 40 mil millones de tokens únicos, y las fuentes de conocimiento explícitas representan solo una parte de los datos mixtos formateados para la tarea. En el futuro, los investigadores necesitan diseñar separadamente un núcleo de razonamiento compacto y un almacenamiento externo de hechos, delegando la amplitud del conocimiento a corpora seleccionados, módulos de mejora por recuperación o memoria aprendible.

2. Tiempo de cálculo adaptativo

La programación cíclica de HRM-Text aumenta la profundidad serial efectiva, pero también implica que el modelo debe ejecutar un número fijo de pasos recursivos durante la inferencia. En el futuro, una dirección valiosa para explorar es introducir un mecanismo de tiempo de cómputo adaptativo, que permita que las muestras sencillas detengan el cálculo más temprano y reserven el presupuesto cíclico completo para las muestras difíciles, reduciendo así el costo de inferencia.

3. El alcance actual de la validación a gran escala sigue siendo limitado

El experimento actual de scaling solo cubre al grupo de control de Transformer con 3B parámetros y al HRM-Text con 1B parámetros. El equipo de investigación indica que aún queda por validar en trabajos futuros si se mantendrá una ventaja de eficiencia similar en modelos de mayor escala.

4. PrefixLM y el marco de inferencia

Actualmente, PrefixLM aún enfrenta ciertas limitaciones de implementación técnica en despliegues reales. Aunque puede ejecutarse en marcos estándar de inferencia de generación de texto como vLLM, esto requiere que el marco admita máscaras de atención personalizadas durante la fase de prefill. Si se extiende a escenarios de conversación multironda, también es necesario diseñar adicionalmente un mecanismo de KV-cache que garantice la visibilidad bidireccional dentro de los fragmentos del usuario, mientras mantiene la restricción causal en el proceso de generación del asistente.

Para más detalles técnicos, consulte el artículo original.

Este artículo proviene del canal de WeChat "Academic Headline" (ID: SciTouTiao), autor: Xia Qiansi