Метод навчання TST від Nous Research викликав суперечки через подібність із попередніми роботами

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Nous Research оголосила про запуск нового токена за допомогою методу Token Stacking Training (TST) 14 травня (UTC+8), стверджуючи, що він скорочує час передтренування в 2–3 рази при тій самій обчислювальній навантаженні. Метод збирає сусідні токени під час раннього навчання та передбачає пакети токенів замість окремих токенів. Критики швидко відмітили схожість TST із статтею 2024 року «Beyond Next Token Prediction». Команда визнала цю перекривання як «незручну збіжність досліджень» і пообіцяла додати відповідні посилання. Нові лісти токенів часто викликають критику, і цей випадок не є винятком.

Новини ME, 14 травня (UTC+8): За даними моніторингу Beating, Nous Research представила нову схему попереднього навчання великих моделей — тренування з накладанням токенів (TST). Ця схема за допомогою пакетного стиснення сусідніх токенів на початковому етапі навчання дозволяє скоротити час попереднього навчання у 2–3 рази при тому самому обсязі обчислень. TST складається з двох етапів. На перших 20–40% навчання модель більше не обробляє токени поодинці, а замість цього «пакує» сусідні токени, обчислює їхнє середнє значення та подає на вхід, а на виході передбачає, які токени міститимуться в наступному пакеті (без урахування внутрішнього порядку). Після цього модель повертається до звичайного передбачення наступного токена. Оскільки архітектура не змінювалася, отримана модель повністю ідентична звичайним моделям під час висновку. Цей метод був успішно протестований на моделях MoE з максимальною кількістю параметрів 10 мільярдів. Суть цієї схеми — «обмін даних на обчислювальну потужність»: швидше споживання корпусу даних для скорочення часу обчислень. Якщо в майбутньому якісні тексти вичерпаються, ця особливість швидкого споживання даних може стати слабким місцем. Крім того, через кілька годин після публікації статті читачі зазначили, що механізм TST дуже схожий на стару роботу 2024 року «Beyond Next Token Prediction». Команда авторів пізніше на Hugging Face визнала це «нещасним збігом досліджень (convergent research)» і пообіцяла оновити статтю, додавши посилання. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.