Новые данные по пост-обучению крупных моделей: обучение в рамках трека с использованием самосгенерированных данных помогает моделям улучшаться

Согласно наблюдениям Beating, «выборка по той же траектории» (то есть обучение модели на данных, сгенерированных ею самой в реальном времени) в пост-обучении крупных моделей является ключом к предотвращению деградации модели и повышению способности решать задачи. Онлайн-обучение с подкреплением (RL) и онлайн-дистилляция (OPD) превосходят традиционную надзорную тонкую настройку (SFT), поскольку они позволяют модели оптимизироваться на основе собственных шагов, а не зазубривать внешние эталонные ответы. SFT насильственно вбивает эталонные ответы, равномерно применяя корректирующее воздействие ко всем словам, что легко разрушает исходную структуру знаний модели и вызывает забывание. Напротив, RL и OPD позволяют модели находить и усиливать наилучшие шаги в собственных черновиках. Это не только предотвращает накопительную ошибку вида «ошибка в первом слове — всё дальше пошло не так», но и обновления происходят только в пределах уже известных модели областей знаний, что максимально сохраняет исходные способности. В эксперименте по «минимальному редактированию кода» независимо от того, использовалась ли SFT или RL в качестве наставника для онлайн-дистилляции,成功率 (Pass@1) студенческой модели с первого раза написать правильный код составила соответственно 80,0% и 78,7%, превзойдя модель-наставника. Даже когда модель-наставник SFT из-за чрезмерной тонкой настройки сильно «потеряла ум» (показатель способности к кодированию в тесте LiveCodeBench упал с 0,320 до 0,286), её студенты всё равно получили высокий результат 0,297, почти не пострадав от недостатков наставника, что доказывает, что практика по той же траектории эффективно фильтрует плохие привычки наставника. В настоящее время DeepSeek-V4 и GLM-5 уже внедрили онлайн-дистилляцию для объединения способностей экспертных моделей. При обучении экспертов области с чёткими правилами, такие как кодирование и математика, лучше подходят RL, тогда как творческие и субъективные задачи, связанные с знаниями, лучше подходят для онлайн-дистилляции. Будущий универсальный алгоритм тонкой настройки обязательно должен в рамках обучения по той же траектории найти новый механизм, сочетающий высокую эффективность дистилляции (высокую плотность информации) и объективность RL (безсмещённые обновления).