Рекурсивний суперінтелект представив першу автоматизовану систему дослідження штучного інтелекту

Кілька днів тому Anthropic опублікувала статтю під назвою «When AI Builds Itself», яка швидко викликала широке обговорення. У статті були розкриті вражаючі внутрішні дані: станом на травень 2026 року понад 80% коду в кодовій базі Anthropic було написано Claude; щоденно злитий обсяг коду в 8 разів перевищує показник 2024 року; у одному з внутрішніх тестів Claude збільшив швидкість виконання навчального коду приблизно у 52 рази порівняно з базовим показником, тоді як досвідчений людський дослідник зазвичай досягає прискорення у 4 рази за 4–8 годин.

Anthropic направляє цей шлях до глибшої мети: «рекурсивне самовдосконалення» — коли AI-системи самостійно проектують, створюють і навчають свої наступні версії, а людина більше не керує кожним кроком. Варто зазначити, що компанія також закликає до галузевої координації, щоб мати можливість призупинити або тимчасово зупинити розробку передових AI у момент настання рекурсивного самовдосконалення. І Anthropic вже це робить: обмежує використання останньої версії Claude Fable 5 для досліджень передових AI.

А зараз Recursive Superintelligence оголосила про перший крок у напрямку автоматизованого дослідження ШІ.

Ця нова компанія, заснована Тянь Юаньдуном, щойно вийшла зі стану невидимості лише місяць тому, і зараз представила свої перші публічні технологічні досягнення. Вони створили відкриту автоматизовану систему виявлення знань і досягли SOTA результатів на трьох базових тестах. Просто кажучи, їм вдалося зробити так, щоб ШІ проводив експерименти замість вас.

https://x.com/tydsh/status/2065062838255649082

Перший результат: дайте AI виконувати експерименти замість вас

Recursive цей перший публічний науковий результат називається «First Steps Toward Automated AI Research» (迈向自动化 AI 研究的第一步).

Твіт: https://x.com/Recursive_SI/status/2064980090702962699
Адреса сховища: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Адреса блогу: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

Якщо скоротити одним реченням, суть цієї роботи полягає в створенні системи, яка може самостійно запускати цикл досліджень штучного інтелекту, і досягненні нових рекордних результатів на трьох тестових наборах.

Перед розбиранням результатів варто спочатку зрозуміти логіку дизайну цієї системи.

Традиційний процес досліджень у галузі ШІ — це замкнений цикл, що сильно залежить від людини: «формулювання ідеї — написання коду — запуск експериментів — аналіз результатів — знову формулювання ідеї». Його обмеження не в обчислювальній потужності, а в людських ресурсах. У світі лише кілька дослідників можуть розробляти передові тренувальні процеси, і кожна ітерація експерименту вимагає їхньої активної участі.

Система Recursive намагається автоматизувати цей замкнений цикл.

Його робота полягає в тому, що система автоматично пропонує ідеї експериментів, реалізує код, запускає перевірку, вчиться на результаті та вирішує, як продовжити пошук. Кілька дослідницьких ліній можуть розгорнутися паралельно, ефективні відкриття можуть бути використані між завданнями, а механізм виявлення шахрайства з нагородами (reward hacking) вбудований у весь цикл, щоб запобігти тому, щоб система «шукала легкі шляхи» та піднімала показники оцінки, не покращивши нічого насправді.

Це не спеціалізований інструмент, налаштований під одну конкретну проблему, а універсальна автоматизована рамка для досліджень у різних галузях. Recursive підтверджує це за допомогою трьох суттєво відмінних тестових сценаріїв.

Три поля битви, три нові рекорди

Сценарій 1: Навчання невеликих моделей при фіксованому бюджеті (NanoChat Autoresearch)

Правила цього тесту були запроваджені проектом autoresearch, запущеним Андрієм Карпаті (автором GPT-2, співзасновником OpenAI): на одному GPU, за фіксований тренувальний бюджет у п’ять хвилин, необхідно навчити невелику мовну модель до мінімально можливої втрати на валідації (вимірюється у BPB, чим нижче, тим краще).

Цей сценарій ідеально підходить для автоматизованого дослідження: короткі цикли експериментів, низька дисперсія показників і відносно легке виявлення шахрайських дій. Саме тому комунітетний проект під назвою «autoresearch@home» вже довгий час працює на цьому бенчмарку — десятки людських дослідників та сотні AI-агентів спільно працюють, щоб постійно знижувати показники.

Система Recursive, виходячи з того самого початкового коду, змогла покращити перевірку BPB з найкращого відсотка спільноти 0,9372 до 0,9109, що становить покращення на 0,0263 BPB. Іншими словами: при тій самій якості навчання, рішення Recursive вимагає лише на 1,3 рази менше часу на навчання, ніж у суперника.

Системні покращення, виявлені системою, не є однією панацеєю. Вони поєднують зміни в архітектурі, додаткові функції втрат, зміни в механізмі уваги, поведінку оптимізатора, планування зменшення ваги, налаштування компілятора та інші фактори. Найважливішим виявленням є більш багатий механізм короткого контексту: у шляху значень уваги одночасно вбудовується інформація про біграми (пари сусідніх слів) та триграми (трійки) за допомогою хеш-таблиць зі зваженим змішуванням за допомогою навчальних воріт. Різні шари Transformer використовують різні хеш-функції, що зменшує ймовірність повторюваних колізій між шарами.

Цей підхід концептуально пов’язаний з такими роботами, як DeepSeek Engram, але система застосувала його у вигляді специфічної модифікації, яка ще не зустрічалася у відкритих наукових публікаціях, у сценарії з фіксованим бюджетом.

Сценарій 2: Гонка на швидкість тренування (NanoGPT Speedrun)

Якщо попередній сценарій полягав у «подальшому розвитку» на основі досягнень активної спільноти, то цей сценарій набагато складніший.

NanoGPT Speedrun — це ще один стандарт, започаткований Карпаті, який спільнота оптимізувала протягом більше ніж двох років: найкоротший час, необхідний для навчання моделі GPT до значення втрати на перевірці 3.28 на 8 GPU H100. З середини 2024 року спільнота зменшила час з приблизно 45 хвилин до 79,7 секунди за допомогою 83 зареєстрованих внесків. Кожен новий підхід вимагає додаткового витиснення часу з надзвичайно оптимізованого коду — уявіть, наскільки це складно.

Система Recursive, виходячи з існуючого оптимального рішення, знову скоротила час навчання до 77,5 секунди, економлячи 2,2 секунди. Це порівнянно з недавніми досягненнями людей або навіть краще.

Основні прийоми, які система цього разу знайшла, включають:

Обчислення уваги з точністю FP8. Рішення спільноти використовує FP8 (8-бітну плаваючу кому) лише в останньому шарі моделі (мовна модельна головка), тоді як система розширює FP8 до матричних операцій у шарах уваги: пряме поширення використовує FP8 для отримання подвоєної пропускної здатності Tensor Core, а зворотне поширення зберігає BF16 для збереження стабільності.

Шум дослідження з охолодженням у оптимізаторі. У кроці оновлення оптимізатора NorMuon до системи додається гаусівський шум з нульовим середнім, амплітуда якого лінійно зменшується до нуля протягом тренування. Це подібно до надання оптимізатору поведінки «спочатку сміливо досліджувати, потім стабільно збігатися», що допомагає кінцевому розв’язку опинитися в більш плоскій долині втрат.

Більш стислий融合 MLP-ядро. Система переписала Triton GPU-ядро так, що під час прямоточного проходу зберігаються лише активовані значення після ReLU-квадрату, а під час зворотного проходу проміжні результати без квадрату перераховуються всередині ядра, що виключає повний читання-запис активованого тензора у високосмугову пам’ять — це безпосереднє прискорення на рівні апаратного забезпечення.

Три покращення, що належать до трьох різних професійних галузей: стратегія точності, дизайн оптимізатора та програмування GPU-ядер. Той факт, що система знайшла простір для покращення після двох років оптимізації спільнотою, сам по собі говорить про багато.

Сценарій 3: Оптимізація ядер GPU (SOL-ExecBench)

Два перших сценарії працюють на рівні навчання моделі, третій сценарій глибше — оптимізація GPU-ядер.

SOL-ExecBench — це базовий тест, запущений NVIDIA, який містить 235 завдань, написаних на ядрах, і охоплює різноманітні реальні навантаження, такі як множення матриць, зведення, шари нормалізації, компоненти уваги, процедури квантування та злиті блоки. Оцінка вимірюється за шкалою SOL: 0,5 відповідає базовій реалізації PyTorch, а 1,0 — теоретичному ліміту апаратного забезпечення. Попередній найкращий публічний результат становив 0,699.

Система Recursive працює на 235 ядрах, дозволяючи повторно використовувати виявлені оптимізаційні шаблони між завданнями (наприклад, стратегії переміщення пам’яті, спосіб розбиття на блоки, методи зведення), що в результаті підвищило оцінку до 0,754 і скоротило розрив до теоретичної межі апаратного забезпечення на 18%.

Ця ситуація має особливе значення, оскільки ядерна інженерія — це надзвичайно спеціалізована галузь — інженери, здатні писати ефективні ядра Triton/CUDA, є рідкістю по всьому світу. Команда Recursive відкрито зізналася у блозі, що самі вони не є експертами в галузі ядер: «Ці ідеї походять із системи, а не з нашого професійного досвіду».

Recursive: Використовуйте ШІ для дослідження рекурсії з метою покращення ШІ

Компанія Recursive Superintelligence, яка опублікувала цей результат, була заснована в кінці 2025 року — на початку 2026 року і минулого місяця завершила період прихованої роботи; до засновників крім колишнього директора дослідницьких науковців Meta FAIR Тянь Юаньдуна входять:

Річард Зокер, генеральний директор Recursive, колишній головний науковець Salesforce

Алексей Досовицький, колишній дослідник Google DeepMind і перший автор Vision Transformer, з більш ніж 160 000 цитувань у Google Scholar

Тім Роктешель, колишній головний науковець DeepMind і професор штучного інтелекту в UCL

Пітер Норвіг, колишній директор з досліджень Google, спільно з Стюартом Расселом написав відому підручник з області ШІ «Штучний інтелект: сучасний підхід»

Цаймін Сюй, колишній віце-президент з штучного інтелекту Salesforce

Тім Ші, колишній дослідник OpenAI, співзасновник і технічний директор компанії Cresta

Джош Тобін, технічний директор Recursive, колишній керівник досліджень у OpenAI та Uber ATG

Джефф Клайн, колишній віце-президент з досліджень Google DeepMind, професор комп’ютерних наук у Університеті Британської Колумбії, Канада

І ця стартап-компанія, навіть не маючи ще публічного продукту, отримала фінансування в розмірі 6,5 мільярда доларів США з оцінкою в 46,5 мільярда доларів США, при цьому керівними інвесторами були GV (відділ інвестицій Google) та Greycroft, а супутніми — NVIDIA та AMD Ventures.

Основна ідея компанії прямо пов’язана з її назвою: створення AI-систем, які можуть рекурсивно підвищувати власні дослідницькі здібності, дозволяючи AI брати участь у та прискорювати розробку самого AI, що в кінцевому підсумку формує неперервний цикл самопідсилення.

Детальніше дивіться у матеріалі «Після виходу з Meta, Тянь Юаньдун щойно оголосив про створення стартапу».

Звичайно, на рівні галузі Recursive не одинока. Yann LeCun з AMI Labs отримав 1 мільярд доларів США у лютому цього року, а David Silver з Ineffable Intelligence зібрав 1,1 мільярда доларів США у серпні — обидва ці інвестиції вказують на схожий напрямок: дозволити AI-системам самостійно генерувати знання та зменшити участь людини у дослідницьких процесах. Але щодо темпу публікації результатів, цей «перший крок» Recursive, ймовірно, є одним із найбільш конкретних та відтворюваних технічних демонстрацій серед подібних компаній на даний момент.

Ранок рекурсивної парадигми

Цей результат, опублікований Recursive, у більш широкому контексті галузі означає початкове реалізування нової парадигми розробки ШІ: передача головної ролі дослідження самим ШІ-системам.

Основна логіка цього «рекурсивного ШІ» не складна: ШІ підвищує здатність ШІ до досліджень, покращений ШІ знову може ефективніше підвищувати себе, і так далі. Він не залежить від одного єдиного прориву, а базується на системі, яка постійно генерує прориви.

Цей підхід має важливе значення для економіки досліджень в галузі ШІ. Навчання передових моделей все ще сильно залежить від невеликої кількості дослідників із певними навичками, а кількість людей у світі, здатних виконувати цю роботу, не перевищує кількох тисяч. Якщо автоматизовані дослідницькі системи зможуть взяти на себе навіть частину цієї роботи, швидкість і крива витрат розвитку ШІ зміняться.

Це твердження також підтверджує інші останні висловлювання в галузі. Наприклад, стаття Anthropic «When AI Builds Itself», згадана на початку цього тексту, має не такий легкий тон — вона закликає до координації в галузі, щоб мати можливість призупинити або тимчасово зупинити розробку передових штучних інтелектів у момент рекурсивного самовдосконалення, щоб надати час соціальним структурам та дослідженням узгодженості наздогнати темп. Більше деталей дивіться у статті «AI надто швидко еволюціонує, Anthropic закликає до глобальної зупинки розробки».

https://www.anthropic.com/institute/recursive-self-improvement

Дві речі відбуваються одночасно, що викликає цікавість: з одного боку, Anthropic фіксує й попереджає про напрямок цієї траєкторії, а з іншого — команди, такі як Recursive, крок за кроком перетворюють цю траєкторію на реальність.

Звичайно, Recursive сама визнає, що це все ще «перший крок»: поточна система найкраще працює в сценаріях із чіткими показниками, швидкою зворотним зв’язком та можливістю виявлення шахрайства, але ще дуже далеко від автономного розв’язання відкритих наукових проблем. Запобігання шахрайству з нагородами буде постійною основною викликом на шляху до масштабування.

Але замкнений цикл вже почав працювати. Наступне питання — наскільки швидко він буде обертатися.

Цей матеріал зі сторінки WeChat «Machine Heart» (ID: almosthuman2014), автор: Machine Heart у процесі рекурсивної еволюції, редактор: Panda