Метод обучения TST от Nous Research вызвал споры из-за сходства с предыдущей работой

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Nous Research объявила о запуске нового токена 14 мая (UTC+8) с использованием метода Token Stacking Training (TST), утверждая, что он сокращает время предварительного обучения в 2–3 раза при той же вычислительной нагрузке. Метод объединяет смежные токены на ранних этапах обучения и предсказывает пакеты токенов вместо отдельных токенов. Критики быстро отметили сходство TST с статьей 2024 года «Beyond Next Token Prediction». Команда признала это пересечение как «несчастный конвергентный исследовательский случай» и пообещала добавить соответствующие ссылки. Новые списки токенов часто вызывают критику, и этот случай не является исключением.

Согласно новости ME, 14 мая (UTC+8), по данным мониторинга Beating, Nous Research представила новую схему предварительного обучения крупных моделей — обучение с наложением токенов (TST). Эта схема сокращает время предварительного обучения в 2–3 раза при том же объеме вычислений за счет упаковки и сжатия смежных токенов на ранних этапах обучения. TST включает два этапа. На первых 20–40% обучения модель больше не обрабатывает токены по одному, а «упаковывает» смежные токены, вычисляя их среднее значение для входа, а на выходе предсказывает, какие токены будут содержаться в следующей упаковке (без учета внутреннего порядка). Затем модель возвращается к обычному предсказанию следующего токена. Поскольку архитектура не изменялась, итоговая модель полностью идентична обычной модели при выводе. Метод был успешно протестирован на моделях MoE до 10 миллиардов параметров. Суть этого подхода — «обмен данных на вычислительные ресурсы»: ускоренное потребление корпуса данных позволяет сократить время вычислений. Однако, если в будущем закончатся качественные текстовые данные, эта особенность ускоренного потребления может стать недостатком. Кроме того, через несколько часов после публикации статьи читатели отметили, что механизм TST крайне похож на метод, описанный в более ранней работе 2024 года «Beyond Next Token Prediction». Авторы признали на Hugging Face, что это «несчастный конвергентный результат», и пообещали обновить статью, добавив соответствующие ссылки. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.