Алumnus Циньхуа Ван Гуан достиг SOTA с помощью HRM-Text, используя 1/900 токенов и 1/432 вычислительных ресурсов

Преодолев традиционную парадигму предварительного обучения крупных моделей, команда вуцяньского выпускника 2000 года Ван Гуань представляет новую работу:

Они заменили стандартный Transformer на иерархическую циклическую модель (HRM) и предложили эффективную предварительно обученную модель HRM-Text, выходящую за рамки масштабирования.

Цинхуа

Ссылка на статью: https://arxiv.org/abs/2605.20613

HRM-Text при использовании примерно в 100–900 раз меньше обучающих токенов и в 96–432 раз меньше оценочных вычислений, чем стандартная базовая модель, достигает производительности, сопоставимой с открытыми моделями с параметрами от 2 до 7 млрд.

В то же время, используя 1 млрд параметров, 40 млрд неповторяющихся токенов и стоимость обучения около 1500 долларов США, HRM-Text показал следующие результаты на основных тестах: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Цинхуа

Рис. | Эффективность предварительного обучения.

На этой основе они четко заявляют: структурные априорные данные и целенаправленные цели обучения могут значительно снизить порог для предварительного обучения. Такая схема обучения делает возможным обучение базовых моделей с нуля.

Как спроектирован HRM-Text?

Предварительное обучение больших языковых моделей (LLM) все больше зависит от немногих организаций, обладающих достаточными вычислительными ресурсами и данными. Для обучения конкурентоспособной базовой модели часто требуется несколько триллионов токенов, тысячи GPU и даже миллионы долларов на вычислительные ресурсы.

Однако текущий режим обучения неэффективен: значительные вычислительные ресурсы тратятся на нерелевантные токены, такие как промпты, заполнение форматов и веб-шум, что приводит к тому, что большая часть вычислительной мощности не используется непосредственно для вывода.

В этой работе исследовательская команда переосмыслила архитектуру и цели обучения, чтобы сделать предварительное обучение HRM-Text относительно более эффективным.

Архитектура: использует иерархическую рекуррентную модель с двумя временнýми масштабами, разделяя вычисления на медленный модуль H и быстрый модуль L. В отличие от стандартного Transformer, который выполняет только один прямой проход для каждого токена, HRM выполняет несколько итераций рекурсивного обновления для одного и того же токена. Модули H и L каждый содержат половину рекурсивных параметров, а общее количество вычислений примерно эквивалентно четырём рекурсивным разверткам одних и тех же параметров, что увеличивает вычислительную глубину без увеличения числа параметров.

Цель обучения: отказаться от стандартного авторегрессивного предварительного обучения на полных текстах и вместо этого обучать непосредственно на парах «инструкция-ответ», вычисляя потери только для части ответа, а также используя маску PrefixLM, чтобы обеспечить двунаправленное внимание для инструкции и генерацию ответа с использованием каскадной маски.

Цинхуа

Рис. | Архитектура HRM-Text.

Для повышения устойчивости рекурсивного обучения исследовательская команда внедрила MagicNorm и Warmup Deep Credit Assignment.

MagicNorm — это гибридная стратегия нормализации, использующая асимметрию между глубиной прямых и обратных вычислений при усеченном обратном распространении (Truncated BPTT): внутри модуля применяется PreNorm, а на выходе модуля добавляется дополнительная нормализация, что повышает стабильность обучения глубоких рекуррентных сетей.

Warmup Deep Credit Assignment в начальной стадии обучения передает градиенты только через последние 2 рекурсивных шага, а затем линейно расширяет их до последних 5 шагов. Такой механизм обучения позволяет модели стабильно сходиться на более коротких путях кредитования, постепенно вводя более длинные зависимости.

Каков результат?

Экспериментальные результаты показывают, что HRM-Text демонстрирует явные преимущества по эффективности архитектуры, целям обучения и общей производительности.

1. При фиксированной вычислительной мощности тренировки, является ли циклическая архитектура более эффективной?

Результаты показывают, что при выравнивании FLOPs HRM 1B превосходит Transformer 1B, Transformer 3B, Looped Transformer 1B и RINS 1B по большинству тестов; сравнение с TRM также демонстрирует, что обучение HRM более стабильно.

Цинхуа

Рис. | Сравнение производительности и стабильности с моделью Transformer. HRM сохранял стабильную динамику обучения на всех масштабах, в то время как модель Transformer столкнулась с серьезной нестабильностью при масштабе в 1 миллиард параметров. Кроме того, при масштабе 0,6 млрд HRM достигал конкурентоспособных результатов на большинстве тестов, используя всего в 2 раза меньше вычислительных ресурсов, чем модель Transformer.

2. Помогают ли цели выполнения задачи и PrefixLM

Абляционные эксперименты показали, что при выравнивании FLOPs MMLU 1B Transformer постепенно увеличился с 40,55 при стандартном авторегрессивном подходе до 47,72 после введения цели выполнения задачи, до 53,15 после добавления PrefixLM и до 60,73 после перехода на архитектуру HRM.

Цинхуа

Рис. | Сравнение производительности между различными архитектурами моделей и целями обучения

3. Какова эффективность HRM-Text по сравнению с современными открытыми моделями?

HRM-Text 1B показал результаты 60,7; 81,9; 82,2; 84,5 и 56,2 на MMLU, ARC-C, DROP, GSM8K и MATH соответственно. При использовании всего 40 миллиардов уникальных токенов и 1 миллиарда параметров он достиг производительности в диапазоне открытых моделей с объемом от 2 до 7 миллиардов параметров, при этом потребовал на 900 раз меньше токенов для обучения и на 432 раза меньше вычислительных ресурсов по сравнению с открытыми моделями, имеющими значительно большие тренировочные бюджеты.

Цинхуа

Рис. | Результаты оценки HRM-Text 1B по сравнению с другими полностью открытыми моделями и моделями с открытыми весами за тот же период

4. Привела ли циклическая структура к большей эффективной глубине?

Результаты показывают, что стандартный Transformer и циклический Transformer достигают стабильности на более мелких уровнях, тогда как HRM сохраняет более выраженные изменения представлений между блоками, более низкую косинусную схожесть и более высокие значения KL логит-линзы на более глубоких уровнях.

Цинхуа

Рис. | Анализ эффективной глубины.

Цинхуа

Рис. | Поступенчатый анализ KL Logit Lens.

Недостатки и направления развития

Хотя HRM-Text продемонстрировал сильные результаты в задачах, требующих интенсивных вычислений, этот метод все еще имеет ограничения и открывает направления для будущих исследований.

1. Разделение «знаний» и «рассуждений»

В настоящее время более широкое покрытие фактических знаний все еще в большей степени зависит от масштаба модели и широты данных. HRM-Text был обучен только на 40 миллиардах уникальных токенов, а явные источники знаний составляют лишь часть смешанных данных в формате задачи. В будущем исследователям необходимо разделять проектирование компактного ядра рассуждений и внешнего хранилища фактов, передавая широту знаний отобранным корпусам, модулям с усилением поиска или обучаемой памяти.

2. Адаптивное вычисление времени

Циклическое планирование HRM-Text обеспечивает большую эффективную последовательную глубину, но это также означает, что модель должна выполнять фиксированное количество рекурсивных шагов при выводе. В будущем перспективным направлением для исследования является внедрение механизма адаптивного времени вычислений, позволяющего простым образцам завершать вычисления раньше и сохранять полный циклический бюджет для сложных образцов, снижая стоимость вывода.

3. Текущий масштаб проверки все еще ограничен

Текущие эксперименты по масштабированию охватывают только Transformer-контрольную группу с 3 млрд параметров и HRM-Text с 1 млрд параметров. Исследовательская группа отметила, что сохранение подобных преимуществ в эффективности при большем масштабе моделей требует дальнейшей проверки в последующих работах.

4. PrefixLM и инференс-фреймворк

В настоящее время PrefixLM сталкивается с определенными инженерными ограничениями при практической эксплуатации. Хотя он может работать на стандартных фреймворках для генерации текста, таких как vLLM, это требует поддержки пользовательских масок внимания на этапе prefill. При расширении на сценарии многократного диалога необходимо дополнительно разработать механизм KV-cache, обеспечивающий двустороннюю видимость внутри фрагментов пользователя и одновременно сохраняющий причинные ограничения для генерации на стороне помощника.

Более подробные технические детали см. в оригинальной статье.

Эта статья взята из официального аккаунта WeChat «Академический титан» (ID: SciTouTiao), автор: Ся Цяньси