L'ancien élève de Tsinghua Wang Guan achieve le SOTA avec HRM-Text en utilisant 1/900 de jetons et 1/432 de calcul

Brisant le modèle traditionnel de pré-entraînement des grands modèles, l'équipe de Wang Guan, ancien étudiant né en 2000 de Tsinghua, présente une nouvelle création :

Ils ont remplacé le Transformer standard par un modèle de boucle hiérarchique (HRM) pour proposer HRM-Text, une méthode de pré-entraînement efficace dépassant le scaling.

Tsinghua

Lien vers l'article : https://arxiv.org/abs/2605.20613

HRM-Text atteint des performances comparables à celles de modèles open source de 2 à 7 milliards de paramètres, en n'utilisant que 100 à 900 fois moins de tokens d'entraînement et 96 à 432 fois moins de calcul estimé que le modèle baseline standard.

En même temps, en utilisant 1 milliard de paramètres, 40 milliards de tokens non répétés et un coût d'entraînement d'environ 1500 dollars, HRM-Text a obtenu les résultats suivants sur les principaux benchmarks : MMLU 60,7 %, ARC-C 81,9 %, DROP 82,2 %, GSM8K 84,5 %, MATH 56,2 %.

Tsinghua

Figure | Efficiacité de l'entraînement préalable.

Sur cette base, ils affirment explicitement que les a priori structurels et les objectifs d'entraînement ciblés peuvent réduire considérablement le seuil de pré-entraînement. Ce schéma d'entraînement rend possible l'entraînement à partir de zéro de modèles de base.

Comment HRM-Text a-t-il été conçu ?

La pré-formation des grands modèles de langage (LLM) repose de plus en plus sur quelques institutions disposant de ressources informatiques et de données suffisantes. Former un modèle de base compétitif nécessite souvent des trillions de tokens, des milliers de GPU, voire des dizaines de millions de dollars en investissement informatique.

Cependant, le modèle d'entraînement actuel n'est pas efficace, car une grande partie du calcul est consacrée à des tokens non pertinents tels que les prompts, le remplissage de format et le bruit des pages web, ce qui fait que de nombreuses ressources d'entraînement ne servent pas directement l'inférence.

Dans ce travail, l'équipe de recherche a redessiné l'architecture et les objectifs d'entraînement pour rendre le pré-entraînement de HRM-Text relativement plus efficace.

Architecture : utilise un modèle hiérarchique cyclique à deux échelles temporelles, divisant le calcul en un module lent H et un module rapide L. Contrairement au Transformer standard qui effectue une seule passe avant pour chaque token, HRM effectue plusieurs mises à jour récursives sur le même token. Les modules H et L représentent chacun la moitié des paramètres principaux récursifs, avec un volume de calcul global équivalent à quatre expansions récursives sur le même ensemble de paramètres, augmentant ainsi la profondeur de calcul sans augmenter le nombre de paramètres.

Objectif d'entraînement : Ne plus utiliser l'entraînement préalable autoregressif standard sur le texte complet, mais entraîner directement sur des paires instruction-réponse, en calculant la perte uniquement sur la partie réponse, et en combinant un masque PrefixLM pour permettre une attention bidirectionnelle sur la partie instruction et une génération selon un masque causal sur la partie réponse.

Tsinghua

Figure | Architecture HRM-Text.

Pour améliorer la stabilité de l'entraînement récursif, l'équipe de recherche a introduit MagicNorm et Warmup Deep Credit Assignment.

MagicNorm est une stratégie de normalisation hybride qui exploite l'asymétrie entre la profondeur des calculs avant et arrière dans le cadre de la rétropropagation tronquée (Truncated BPTT), en appliquant PreNorm à l'intérieur du module et en ajoutant une normalisation supplémentaire à la sortie du module, afin d'améliorer la stabilité de l'entraînement des réseaux récurrents profonds.

Warmup Deep Credit Assignment n'propage les gradients que sur les 2 dernières étapes récursives au début de l'entraînement, puis les étend linéairement aux 5 dernières étapes. Ce mécanisme d'entraînement permet au modèle de converger stablement sur des chemins de crédit plus courts, avant d'introduire progressivement des dépendances plus longues.

How effective is it?

Les résultats expérimentaux montrent que HRM-Text présente un avantage significatif en termes d'efficacité architecturale, d'objectifs d'entraînement et de performance globale.

1. Sous une puissance de calcul fixe, l'architecture cyclique est-elle plus efficace ?

Les résultats montrent que, dans des conditions d'alignement FLOPs, HRM 1B surpasse Transformer 1B, Transformer 3B, Looped Transformer 1B et RINS 1B sur la plupart des benchmarks ; la comparaison avec TRM indique également que l'entraînement de HRM est plus stable.

Tsinghua

Figure | Comparaison des performances et de la stabilité avec le modèle Transformer. HRM maintient une dynamique d'entraînement stable à toutes les échelles, tandis que le modèle Transformer présente une instabilité sévère à l'échelle de 1 milliard de paramètres. De plus, à l'échelle de 0,6 milliard, HRM atteint des performances compétitives sur la plupart des benchmarks avec seulement deux fois moins de calcul que le modèle Transformer.

2. Les objectifs de réalisation de la tâche et le PrefixLM sont-ils utiles ?

Les expériences d'ablation montrent que, dans des conditions d'alignement FLOPs, le MMLU du Transformer 1B passe de 40,55 avec l'auto-régression standard à 47,72 après l'introduction de l'objectif de accomplissement de tâche, à 53,15 après l'ajout de PrefixLM, et à 60,73 après le passage à l'architecture HRM.

Tsinghua

Figure | Comparaison des performances entre différentes architectures de modèles et objectifs d'entraînement

3. Comment l'efficacité de HRM-Text compare-t-elle aux modèles ouverts contemporains ?

HRM-Text 1B obtient respectivement 60,7, 81,9, 82,2, 84,5 et 56,2 sur MMLU, ARC-C, DROP, GSM8K et MATH. Comparé à des modèles ouverts entraînés avec des budgets bien plus élevés, il atteint une performance dans la gamme des modèles open source de 2B à 7B en n'utilisant que 40 milliards de tokens uniques et 1 milliard de paramètres ; il nécessite jusqu'à 900 fois moins de tokens d'entraînement et jusqu'à 432 fois moins de ressources de calcul.

Tsinghua

Figure | Résultats de l'évaluation de HRM-Text 1B par rapport aux modèles entièrement open source et aux modèles à poids ouverts de la même période

4. La structure cyclique a-t-elle apporté une plus grande profondeur effective ?

Les résultats montrent que le Transformer standard et le Looped Transformer atteignent une stabilité à des couches plus superficielles, tandis que l'HRM conserve des changements plus marqués entre les blocs, une plus faible similarité cosinus et des valeurs KL de logit lens plus élevées à des couches plus profondes.

Tsinghua

Image | Analyse de la profondeur effective.

Tsinghua

Figure | Analyse KL de la lentille de logit couche par couche.

Insuffisances et orientations futures

Bien que HRM-Text ait démontré de bonnes performances sur des tâches intensives en calcul, cette méthode présente encore des limites et ouvre des pistes pour des recherches futures.

1. Découplage entre « connaissance » et « raisonnement »

Actuellement, la couverture plus large des connaissances factuelles repose toujours davantage sur la taille du modèle et l'étendue des données. HRM-Text n'a été formé que sur 40 milliards de tokens uniques, et les sources explicites de connaissances ne représentent qu'une partie des données mixtes formatées pour la tâche. À l'avenir, les chercheurs devront concevoir séparément un noyau d'inférence compact et un stockage externe de faits, en confiant l'étendue des connaissances à des corpus sélectionnés, des modules d'augmentation par recherche ou des mémoires apprenables.

2. Temps de calcul adaptatif

L'échéancier cyclique de HRM-Text augmente la profondeur sérielle effective, mais implique également que le modèle doive exécuter un nombre fixe d'étapes récursives lors de l'inférence. À l'avenir, une piste prometteuse à explorer consiste à introduire un mécanisme de temps de calcul adaptatif, permettant aux échantillons simples de s'arrêter plus tôt dans le calcul tout en réservant le budget cyclique complet aux échantillons difficiles, réduisant ainsi le coût d'inférence.

3. La portée actuelle de la vérification à grande échelle reste limitée

L'expérience actuelle sur le scaling ne couvre que le groupe de contrôle Transformer avec 3 milliards de paramètres et HRM-Text avec 1 milliard de paramètres. L'équipe de recherche indique que l'efficacité similaire sur des modèles plus grands devra être validée par des travaux futurs.

4. PrefixLM et le cadre d'inférence

Actuellement, PrefixLM fait face à certaines limites techniques dans son déploiement pratique. Bien qu'il puisse fonctionner sur des frameworks standards d'inférence de génération de texte comme vLLM, cela exige que le framework prenne en charge des masques d'attention personnalisés lors de la phase de prefill. Pour l'étendre à des scénarios de conversations multirondes, il faut concevoir davantage un mécanisme de KV-cache qui garantisse la visibilité bidirectionnelle au sein des fragments utilisateur tout en respectant les contraintes causales pour la génération côté assistant.

Pour plus de détails techniques, consultez l'article original.

Cet article provient du compte officiel WeChat « Academic Headline » (ID : SciTouTiao), auteur : Xia Qiansi