Перевертаючи традиційну парадигму попереднього навчання великих моделей, команда Вань Гуаня, молодого випускника Цинхуа 2000 року, представила нову роботу:
Вони використали ієрархічну циклічну модель (HRM) замість стандартного Transformer, запропонувавши ефективну передтренувальну модель HRM-Text, що перевершує масштабування.

Посилання на статтю: https://arxiv.org/abs/2605.20613
HRM-Text досягає продуктивності, що зрівняється з відкритими моделями з параметрами 2B–7B, використовуючи лише приблизно в 100–900 разів менше тренувальних токенів і в 96–432 разів менше оцінених обчислювальних ресурсів, ніж стандартна базова модель.
Також, використовуючи 1 мільярд параметрів, 40 мільярдів неповторюваних токенів і витрати на навчання близько 1500 доларів США, HRM-Text показав наступні результати на основних тестах: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Рис. | Ефективність передтренування.
На цій основі вони чітко зазначили: структурні пріоритети та цільові навчальні цілі можуть значно знизити бар’єри для попереднього навчання. Така навчальна схема робить можливим навчання базових моделей з нуля.
Як розроблений HRM-Text?
Попереднє навчання великих мовних моделей (LLM) все більше залежить від невеликої кількості організацій, які мають достатню обчислювальну потужність та ресурси даних. Для навчання конкурентоспроможної базової моделі часто потрібно кілька трильйонів токенів, тисячі GPU та навіть мільйони доларів США на обчислювальні ресурси.
Однак поточний режим навчання неефективний: велика кількість обчислень витрачається на промпти, заповнення форматів та шум веб-сторінок, що призводить до того, що велика частина обчислювальних ресурсів не використовується безпосередньо для висновків.
У цій роботі дослідницька команда переробила архітектуру та цілі навчання, щоб зробити попереднє навчання HRM-Text відносно більш ефективним.
Архітектура: використовує двохрівневу ієрархічну рекурентну модель з двома часовими масштабами, розбиваючи обчислення на повільний модуль H та швидкий модуль L. Стандартний Transformer виконує лише один прямий прохід для кожного токена, тоді як HRM проводить кілька ітерацій рекурентного оновлення для одного й того ж токена. Модулі H і L кожен містить лише половину рекурентних параметрів, а загальний обчислювальний навантаження приблизно відповідає чотирьом ітераціям розгортання тих самих параметрів, що збільшує глибину обчислень без збільшення кількості параметрів.
Мета навчання: не використовувати стандартне автогрессивне попереднє навчання на повних текстах, а навчати безпосередньо на парах «інструкція-відповідь», обчислюючи втрати лише для частини відповіді, а також використовуючи маску PrefixLM, щоб інструкція мала двонаправлений увагу, а відповідь генерувалася за допомогою каскадної маски.

Рис. | Архітектура HRM-Text.
Для підвищення стабільності рекурсивного навчання дослідницька команда впровадила MagicNorm і Warmup Deep Credit Assignment.
MagicNorm — це гібридна стратегія нормалізації, яка використовує асиметрію глибини прямого та зворотного обчислення при обмеженому зворотному поширенні (Truncated BPTT), застосовуючи PreNorm всередині модуля та додаючи додаткову нормалізацію на виході модуля для підвищення стабільності глибокого рекурентного навчання.
Warmup Deep Credit Assignment у початковій фазі навчання передає градієнти лише останнім 2 рекурсивним крокам, а потім лінійно розширює до останніх 5 кроків. Цей механізм навчання дозволяє моделі стабільно збігатися на коротших шляхах кредитування, поступово вводячи більш довгі залежності.
Які результати?
Результати експериментів показують, що HRM-Text має значні переваги щодо ефективності архітектури, цілей навчання та загальної продуктивності.
1. При фіксованій обчислювальній потужності для навчання, чи є циклічна архітектура більш ефективною
Результати показують, що HRM 1B перевершує Transformer 1B, Transformer 3B, Looped Transformer 1B і RINS 1B за більшістю тестів за умови вирівнювання FLOPs; порівняння з TRM також свідчить про більшу стабільність навчання HRM.

Рисунок | Порівняння продуктивності та стабільності з моделями Transformer. HRM зберігає стабільну динаміку навчання на всіх розмірах, тоді як моделі Transformer демонструють серйозну нестабільність при розмірі в 1 мільярд параметрів. Крім того, при розмірі 0,6 млрд HRM досягає конкурентоспроможних результатів на більшості тестів, використовуючи лише вдвічі менше обчислювальних ресурсів, ніж моделі Transformer.
2. Чи допомагають цілі завершення завдань і PrefixLM?
Експерименти з абляцією показують, що за умови вирівнювання FLOPs, MMLU 1B Transformer поступово зростає зі 40,55 при стандартному автогенеративному підході до 47,72 після введення цілей виконання завдань, до 53,15 після додавання PrefixLM, і до 60,73 після переходу на архітектуру HRM.

Рис. | Порівняння продуктивності між різними архітектурами моделей та цілями навчання
3. Як ефективність HRM-Text порівнюється з сучасними відкритими моделями?
HRM-Text 1B показав результати 60,7; 81,9; 82,2; 84,5 і 56,2 на MMLU, ARC-C, DROP, GSM8K і MATH відповідно. Порівняно з відкритими моделями, які використовують значно більший тренувальний бюджет, він досягає продуктивності моделей з 2B до 7B параметрів, використовуючи лише 40 мільярдів унікальних токенів і 1 мільярд параметрів; кількість токенів для навчання менша до 900 разів, а обчислювальні витрати — до 432 разів.

Рис. | Оцінка HRM-Text 1B порівняно з іншими повністю відкритими моделями та моделями з відкритими вагами за той самий період
4. Чи призвів циклічний структури до збільшення ефективної глибини?
Результати показують, що стандартний Transformer і Looped Transformer досягають стабільності на менш глибоких шарах, тоді як HRM зберігає більш помітні зміни між блоками, нижчу косинусну схожість і вищі значення KL логіт-лінзи на більш глибоких шарах.

Рис. | Аналіз ефективної глибини.

Рис. | Покладовий аналіз Logit Lens KL.
Недоліки та майбутні напрямки
Хоча HRM-Text продемонстрував сильні результати в завданнях, що вимагають інтенсивних обчислень, цей метод все ще має обмеження та визначає напрямки для майбутніх досліджень.
1. Відокремлення «знань» від «міркувань»
Наразі ширше покриття фактичних знань все ще більше залежить від розміру моделі та широти даних. HRM-Text навчався лише на 40 мільярдах унікальних токенів, а явні джерела знань становлять лише частину змішаних даних у форматі завдання. У майбутньому дослідникам потрібно розробляти компактне міркувальне ядро окремо від зовнішнього сховища фактів, передаючи широту знань відібраним корпусам, модулям з посиленням пошуку або навчальним пам’ятям.
2. Адаптивний обчислювальний час
Циклічне планування HRM-Text забезпечує більшу ефективну послідовну глибину, але це означає, що під час висновку модель повинна виконувати фіксовану кількість рекурсивних кроків. У майбутньому варто дослідити можливість введення механізму адаптивного часу обчислення, що дозволить простим зразкам припиняти обчислення раніше та зберігати повний циклічний бюджет для складних зразків, зменшуючи витрати на висновок.
3. Поточний масштаб перевірки все ще обмежений
Поточні експерименти з масштабуванням охоплюють лише Transformer-контрольну групу з 3 млрд параметрів та HRM-Text з 1 млрд параметрів. Дослідницька команда зазначила, що збереження подібних переваг у ефективності при більшому розмірі моделі потребує додаткової перевірки у майбутніх роботах.
4. PrefixLM та інференсний фреймворк
Наразі PrefixLM у реальних умовах експлуатації стикається з певними інженерними обмеженнями. Хоча він може працювати на стандартних фреймворках для генерації тексту, таких як vLLM, це вимагає підтримки користувацьких масок уваги на етапі prefill. Якщо його розширити на сценарії багатокрокових діалогів, необхідно додатково розробити механізм KV-cache, щоб забезпечити двосторонню видимість всередині фрагментів користувача та одночасно зберегти причинні обмеження для генерації з боку асистента.
Більше технічних деталей дивіться в оригінальній статті.
Цей матеріал зі сторінки WeChat «Академічний тітл» (ID: SciTouTiao), автор: Ся Цяньсі
