Sapient відкриває код 1-мільярдного параметричного HRM-текстового моделю з витратами на навчання в 1300 разів нижчими

Повідомлення AIMPACT, 19 травня (UTC+8): За даними моніторингу Beating, Sapient Intelligence відкрила вихідний код базової моделі генерації тексту HRM-Text з 1 мільярдом параметрів (1B). Це чисто передтренувальна модель, побудована на архітектурі ієрархічної моделі міркувань (HRM). Вона зменшує витрати обчислювальних ресурсів на підготовку базової моделі в 130–600 разів завдяки введенню інференсу в латентному просторі на нижньому рівні архітектури. Зокрема, HRM-Text була передтренована лише на 40 мільярдах (40B) структурованих токенів — це приблизно тисяча разів менше даних, ніж у звичайних моделей того ж рівня. Офіційні тести показали, що для повної передтренування версії 1B на двох серверах з 8 GPU H100 кожен знадобилося близько 46 годин і витрати становили близько 1472 доларів США; версія 0.6B може бути передтренована на одному вузлі за 50 годин з витратами на обладнання близько 800 доларів США. Повний інженерний фреймворк, що включає витяг даних, пакування послідовностей та розподілене навчання PyTorch, також був відкритий. Підтримка екстремального зниження витрат ґрунтується на унікальному дизайні подвійного часових масштабів (Dual-timescale recurrent). Модель містить дві паралельні системи модулів Transformer — швидкі (нижній рівень) та повільні (верхній рівень). Ці дві системи ітеративно працюють на одних і тих самих вхідних даних і обмінюються інформацією шляхом додавання станів. Такий підхід дозволяє моделі динамічно збільшувати глибину обчислень, збільшуючи кількість ітерацій, за умови фіксованої загальної кількості фізичних параметрів. Різке зниження порогу передтренування надає багатьом раніше виключеним через високу вартість обчислень теоретичним моделям нових можливостей для перевірки за низькою ціною. Варто звернути увагу: наразі опубліковано лише не вирівняні чисто передтреновані ваги; модель може виконувати лише завдання продовження префіксу і не може використовуватися безпосередньо як асистент для відповідей на запитання. (Джерело: BlockBeats)