За даними Beating Monitoring, «відповідний відбір» (тобто навчання моделі на її власних даних, згенерованих у реальному часі) у післятренуванні великих моделей є ключовим для запобігання деградації моделі та підвищення здатності розв’язувати завдання. Онлайн-підсилене навчання (RL) та відповідне дистиляція (OPD) перевершують традиційне наглядове доналаштування (SFT) саме тому, що вони дозволяють моделі оптимізуватися на основі кроків, які вона сама створила, а не просто запам’ятовувати зовнішні правильні відповіді. SFT примусово нав’язує стандартні відповіді, рівномірно застосовуючи силу змін до кожного слова, що легко руйнує початкову структуру знань моделі та викликає забування. Навпаки, RL та OPD дозволяють моделі шукати та підсилювати найкращі кроки серед її власних чернеток. Це не лише уникне накопичення помилок, коли «перше слово написано неправильно, а потім все йде не так», але й оновлення відбуваються лише в межах знань, які модель вже має, що максимально зберігає її первинні здібності. У експерименті з «мінімальним редагуванням коду» незалежно від того, чи використовувався SFT чи RL викладач для відповідної дистиляції, успішність студентської моделі з першого разу написати правильний код (Pass@1) становила відповідно 80,0% і 78,7%, що перевищує показники моделей-викладачів. Навіть коли SFT-викладач через надмірне доналаштування серйозно «згубив розум» (показник здатності до кодування у LiveCodeBench впав з 0,320 до 0,286), його студентська модель все одно отримала високий результат 0,297, майже не постраждавши від недоліків викладача, що доводить, що відповідне тренування ефективно фільтрує погані звички викладача. Зараз DeepSeek-V4 та GLM-5 впровадили відповідну дистиляцію для об’єднання здатностей експертних моделей. У експертному навчанні області з чіткими правильними та неправильними відповідями — такі як кодування та математика — краще підходять для RL, тоді як креативні та суб’єктивні завдання, пов’язані з знаннями, краще підходять для відповідної дистиляції. Майбутній фінальний алгоритм доналаштування обов’язково має знайти новий механізм у рамках відповідного навчання, який поєднуватиме високу ефективність дистиляції (висока щільність інформації) з об’єктивністю RL (безуперечне оновлення).
Нові знахідки у післятренуванні великих моделей: навчання в межах треку з власногенерованими даними допомагає моделям покращуватися
MarsBitПоділитися
Нові дослідження підкреслюють навчання в реальному часі з власно згенерованими даними як ключовий метод підвищення продуктивності моделі та уникнення деградації. На відміну від традиційного SFT, онлайн RL та дистиляція в реальному часі (OPD) дозволяють моделям удосконалювати власні кроки в реальному часі. Останні тести показали, що студентські моделі, навчені таким чином, перевершили наставників, навіть коли інфляційні дані та ринкові зміни впливали на зовнішні еталони. Платформи, такі як DeepSeek-V4 та GLM-5, вже використовують цей метод для поєднання експертних знань. Нові токени можуть отримати перевагу від більш точних та адаптивних моделей, що використовують дистиляцію в реальному часі.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.