Повідомлення AIMPACT, 19 травня (UTC+8): За даними моніторингу Beating, Sapient Intelligence відкрила вихідний код базової моделі генерації тексту HRM-Text з 1 мільярдом параметрів (1B). Це чисто передтренувальна модель, побудована на архітектурі ієрархічної моделі міркувань (HRM). Вона зменшує витрати обчислювальних ресурсів на підготовку базової моделі в 130–600 разів завдяки введенню інференсу в латентному просторі на нижньому рівні архітектури. Зокрема, HRM-Text була передтренована лише на 40 мільярдах (40B) структурованих токенів — це приблизно тисяча разів менше даних, ніж у звичайних моделей того ж рівня. Офіційні тести показали, що для повної передтренування версії 1B на двох серверах з 8 GPU H100 кожен знадобилося близько 46 годин і витрати становили близько 1472 доларів США; версія 0.6B може бути передтренована на одному вузлі за 50 годин з витратами на обладнання близько 800 доларів США. Повний інженерний фреймворк, що включає витяг даних, пакування послідовностей та розподілене навчання PyTorch, також був відкритий. Підтримка екстремального зниження витрат ґрунтується на унікальному дизайні подвійного часових масштабів (Dual-timescale recurrent). Модель містить дві паралельні системи модулів Transformer — швидкі (нижній рівень) та повільні (верхній рівень). Ці дві системи ітеративно працюють на одних і тих самих вхідних даних і обмінюються інформацією шляхом додавання станів. Такий підхід дозволяє моделі динамічно збільшувати глибину обчислень, збільшуючи кількість ітерацій, за умови фіксованої загальної кількості фізичних параметрів. Різке зниження порогу передтренування надає багатьом раніше виключеним через високу вартість обчислень теоретичним моделям нових можливостей для перевірки за низькою ціною. Варто звернути увагу: наразі опубліковано лише не вирівняні чисто передтреновані ваги; модель може виконувати лише завдання продовження префіксу і не може використовуватися безпосередньо як асистент для відповідей на запитання. (Джерело: BlockBeats)
Sapient відкриває код 1-мільярдного параметричного HRM-текстового моделю з витратами на навчання в 1300 разів нижчими
KuCoinFlashПоділитися






Sapient Intelligence опублікувала новини у мережі 19 травня (UTC+8), відкривши HRM-Text — текстову модель з 1 мільярдом параметрів та ієрархічною архітектурою міркувань. Модель використовує міркування в латентному просторі, щоб зменшити витрати на попереднє навчання у 130–600 разів. Вона була навчена на 40 мільярдах структурованих токенів — частині даних, які використовують подібні моделі. Версію 1B можна навчити за 46 годин за $1 472 за допомогою двох серверів з H100 (8 GPU кожен). Версія 0,6B коштує $800. Повна інженерна рамка, включаючи витяг даних та навчання у PyTorch, також відкрита. Ключовими акцентами цього випуску є дані про інфляцію та ефективність навчання.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.