Sapient открывает исходный код модели HRM-Text с 1 миллиардом параметров при снижении стоимости обучения в 1300 раз

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Sapient Intelligence выпустила новость в блокчейне 19 мая (UTC+8), открыв исходный код HRM-Text — текстовой модели с 1 млрд параметров и иерархической архитектурой рассуждений. Модель использует рассуждения в латентном пространстве, снижая затраты на предварительное обучение в 130–600 раз. Она была обучена на 40 млрд структурированных токенов — небольшой доле данных, используемых аналогичными моделями. Версия с 1 млрд параметров может быть обучена за 46 часов за $1 472 на двух серверах с по восемь GPU H100. Версия с 0,6 млрд параметров стоит $800. Полная инженерная система, включая извлечение данных и обучение на PyTorch, также открыта. Ключевыми особенностями этого выпуска являются данные об инфляции и эффективность обучения.

Сообщение AIMPACT, 19 мая (UTC+8): согласно мониторингу Beating, Sapient Intelligence открыла исходный код базовой модели генерации текста с 1 миллиардом параметров (1B) — HRM-Text. Это чисто предобученная модель, основанная на архитектуре иерархической модели рассуждений (HRM). Благодаря введению рассуждений в латентное пространство на нижнем уровне архитектуры, вычислительные затраты на предобучение базовой модели сокращены в 130–600 раз. Конкретно, HRM-Text был предобучен всего на 40 миллиардах (40B) структурированных токенов — объем данных составляет примерно одну тысячную от объема, используемого аналогичными обычными моделями. По результатам официальных тестов, предобучение версии 1B заняло около 46 часов на двух серверах с 8 GPU H100 каждый, при вычислительных затратах около 1472 долларов США; версия 0.6B требует только 50 часов на одном узле и аппаратные затраты около 800 долларов США. Полная инженерная система, включающая извлечение данных, упаковку последовательностей и распределенное обучение в PyTorch, также была открыта. Основой для радикального снижения затрат является уникальная архитектура с двойной временной шкалой (Dual-timescale recurrent). Модель содержит две набора модулей Transformer — быстрые (нижний уровень) и медленные (верхний уровень), которые итеративно обновляются на одном и том же входе и обмениваются информацией путем сложения состояний. Эта архитектура позволяет динамически увеличивать вычислительную глубину модели за счет увеличения числа итераций при фиксированном общем количестве физических параметров. Резкое снижение порога предобучения открывает возможность для недорогой проверки ранее отложенных теорий моделей, которые раньше были недоступны из-за высокой стоимости вычислений. Особое внимание: в данный момент выпущены только неотрегулированные веса чисто предобученной модели; она может выполнять только задачи продолжения префикса и не может использоваться напрямую в качестве помощника для ответов на вопросы. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.