Sapient открывает исходный код модели HRM-Text с 1 миллиардом параметров при снижении стоимости обучения в 1300 раз

Сообщение AIMPACT, 19 мая (UTC+8): согласно мониторингу Beating, Sapient Intelligence открыла исходный код базовой модели генерации текста с 1 миллиардом параметров (1B) — HRM-Text. Это чисто предобученная модель, основанная на архитектуре иерархической модели рассуждений (HRM). Благодаря введению рассуждений в латентное пространство на нижнем уровне архитектуры, вычислительные затраты на предобучение базовой модели сокращены в 130–600 раз. Конкретно, HRM-Text был предобучен всего на 40 миллиардах (40B) структурированных токенов — объем данных составляет примерно одну тысячную от объема, используемого аналогичными обычными моделями. По результатам официальных тестов, предобучение версии 1B заняло около 46 часов на двух серверах с 8 GPU H100 каждый, при вычислительных затратах около 1472 долларов США; версия 0.6B требует только 50 часов на одном узле и аппаратные затраты около 800 долларов США. Полная инженерная система, включающая извлечение данных, упаковку последовательностей и распределенное обучение в PyTorch, также была открыта. Основой для радикального снижения затрат является уникальная архитектура с двойной временной шкалой (Dual-timescale recurrent). Модель содержит две набора модулей Transformer — быстрые (нижний уровень) и медленные (верхний уровень), которые итеративно обновляются на одном и том же входе и обмениваются информацией путем сложения состояний. Эта архитектура позволяет динамически увеличивать вычислительную глубину модели за счет увеличения числа итераций при фиксированном общем количестве физических параметров. Резкое снижение порога предобучения открывает возможность для недорогой проверки ранее отложенных теорий моделей, которые раньше были недоступны из-за высокой стоимости вычислений. Особое внимание: в данный момент выпущены только неотрегулированные веса чисто предобученной модели; она может выполнять только задачи продолжения префикса и не может использоваться напрямую в качестве помощника для ответов на вопросы. (Источник: BlockBeats)