Нові знахідки у післятренуванні великих моделей: навчання в межах треку з власногенерованими даними допомагає моделям покращуватися

За даними Beating Monitoring, «відповідний відбір» (тобто навчання моделі на її власних даних, згенерованих у реальному часі) у післятренуванні великих моделей є ключовим для запобігання деградації моделі та підвищення здатності розв’язувати завдання. Онлайн-підсилене навчання (RL) та відповідне дистиляція (OPD) перевершують традиційне наглядове доналаштування (SFT) саме тому, що вони дозволяють моделі оптимізуватися на основі кроків, які вона сама створила, а не просто запам’ятовувати зовнішні правильні відповіді. SFT примусово нав’язує стандартні відповіді, рівномірно застосовуючи силу змін до кожного слова, що легко руйнує початкову структуру знань моделі та викликає забування. Навпаки, RL та OPD дозволяють моделі шукати та підсилювати найкращі кроки серед її власних чернеток. Це не лише уникне накопичення помилок, коли «перше слово написано неправильно, а потім все йде не так», але й оновлення відбуваються лише в межах знань, які модель вже має, що максимально зберігає її первинні здібності. У експерименті з «мінімальним редагуванням коду» незалежно від того, чи використовувався SFT чи RL викладач для відповідної дистиляції, успішність студентської моделі з першого разу написати правильний код (Pass@1) становила відповідно 80,0% і 78,7%, що перевищує показники моделей-викладачів. Навіть коли SFT-викладач через надмірне доналаштування серйозно «згубив розум» (показник здатності до кодування у LiveCodeBench впав з 0,320 до 0,286), його студентська модель все одно отримала високий результат 0,297, майже не постраждавши від недоліків викладача, що доводить, що відповідне тренування ефективно фільтрує погані звички викладача. Зараз DeepSeek-V4 та GLM-5 впровадили відповідну дистиляцію для об’єднання здатностей експертних моделей. У експертному навчанні області з чіткими правильними та неправильними відповідями — такі як кодування та математика — краще підходять для RL, тоді як креативні та суб’єктивні завдання, пов’язані з знаннями, краще підходять для відповідної дистиляції. Майбутній фінальний алгоритм доналаштування обов’язково має знайти новий механізм у рамках відповідного навчання, який поєднуватиме високу ефективність дистиляції (висока щільність інформації) з об’єктивністю RL (безуперечне оновлення).