Партнер YC запропонував, щоб ШІ розвивався як вчені, написавши код, який самовдосконалюється

ME AI повідомлення: згідно з даними моніторингу Beating, партнер Y Combinator Діана Ху на X зазначила, що майбутній фронтір полягає не у простому збільшенні параметрів, а у створенні тонкого програмного шару поверх базової моделі, який дозволить ШІ самостійно писати правила для вирішення проблем (виконувані світові моделі). ШІ може постійно тестувати, змінювати та спрощувати код на основі результатів виконання, не вимагаючи дорогого доналаштування самої великої моделі. Шлях неградієнтного навчання коду підтверджує гіперетичний підхід (Heuristic Learning), запропонований минулого місяця Вон Цзяйї, одним із ключових членів команди OpenAI після навчання. У традиційному підсиленому навчанні, щоб навчити ШІ виконувати завдання, потрібно тисячі ітерацій налаштувань, щоб нав’язати досвід у чорний ящик нейронної мережі — це вимагає величезних енергетичних витрат і легко призводить до забування. Проте експеримент Вон Цзяйї, без будь-яких змін параметрів великої моделі, повністю пройшов гру Atari Breakout, виключно за допомогою того, що велика модель сама писала код на Python, знаходила баги та налаштовувала правила. Це свідчить, що носієм знань може бути зовсім зрозуміла, перевіряєма система коду, а не незрозумілі ваги нейронної мережі. За думкою співзасновника YC Пола Грема, цикл написання коду, перевірки та стиснення дуже близький до щоденного дослідницького процесу вчених. Велика модель не потребує перебудови мозку — вона діє як вчений: формулює гіпотетичну модель у вигляді коду для нової середовища, запускає код для експериментального підтвердження та виділяє найбільш стислі правила для вирішення проблем. Пошук найпростішої програми є остаточним критерієм ефективності ШІ за стандартом ARC-AGI. Найважливіша перевага полягає в тому, що неградієнтне навчання може безпосередньо скористатися зростанням потужності базової великої моделі. Коли базова модель стає розумнішою, код і стратегії агента стають у кратні рази потужнішими. На основі знаменитого «Жорстокого уроку» Річарда Саттона (The Bitter Lesson), неградієнтне навчання коду намальовує нову S-подібну криву. З розквітом кодових здібностей великих моделей шлях самоеволюції ШІ відкриває еру нової парадигми штучного інтелекту. (Джерело: MLion)