Recursive Superintelligence представляет первую автоматизированную систему AI-исследований

Несколько дней назад Anthropic опубликовала статью под названием «When AI Builds Itself» (Когда ИИ создает себя), которая быстро вызвала широкий интерес. В статье были раскрыты поразительные внутренние данные: по состоянию на май 2026 года более 80% кода в репозитории Anthropic были написаны Claude, а ежедневно инженеры сливают в восемь раз больше кода, чем в 2024 году; в одном из внутренних тестов Claude ускорил выполнение тренировочного кода примерно в 52 раза по сравнению с базовым показателем, тогда как опытный человеческий исследователь обычно достигает ускорения в 4 раза за 4–8 часов.

Anthropic направляет эту траекторию к более глубокой цели: «рекурсивному самоулучшению» — когда AI-системы самостоятельно проектируют, создают и обучают свои последующие версии, а человек больше не управляет каждым шагом. Стоит отметить, что компания также призывает к отраслевой координации, чтобы при наступлении момента рекурсивного самоулучшения иметь возможность приостановить или временно приостановить разработку передовых AI. И Anthropic уже это делает: ограничивает использование последней версии Claude Fable 5 для разработки передовых AI.

Сейчас Recursive Superintelligence объявила о первом шаге в автоматизированном исследовании ИИ.

Эта новая компания, совместно основанная Тянь Юаньдуном, только что завершила свой период скрытого развития всего месяц назад и теперь представила свои первые публичные технологические достижения. Они создали открытую автоматизированную систему для обнаружения знаний и достигли результатов SOTA на трех базовых тестах. Проще говоря, им удалось добиться того, чтобы ИИ проводил эксперименты вместо вас.

https://x.com/tydsh/status/2065062838255649082

Первый результат: заставьте ИИ проводить эксперименты вместо вас

Recursive Эта первая публичная технологическая разработка называется «First Steps Toward Automated AI Research» (Маршрут к автоматизированному исследованию ИИ).

Твит: https://x.com/Recursive_SI/status/2064980090702962699
Адрес репозитория: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Адрес блога: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

Если кратко, суть этой работы заключается в создании системы, способной автономно запускать цикл исследований в области ИИ, и установлении новых рекордов на трех базовых тестах.

Прежде чем расшифровывать результаты, важно понять логику проектирования этой системы.

Традиционный процесс исследований в области ИИ представляет собой замкнутый цикл, сильно зависящий от человека: «формулировка идеи — написание кода — запуск эксперимента — анализ результатов — новая идея». Его узкое место — не вычислительная мощность, а люди. В мире существует лишь несколько исследователей, способных разрабатывать передовые тренировочные процессы, и каждый цикл итераций экспериментов требует их активного участия.

Система Recursive пытается автоматизировать этот замкнутый цикл.

Он работает следующим образом: система автоматически генерирует идеи экспериментов, реализует код, запускает проверки, извлекает уроки и определяет дальнейшее направление поиска для конкретной цели оптимизации. Несколько исследовательских линий могут продвигаться параллельно, эффективные открытия могут быть повторно использованы между задачами, а механизм обнаружения манипуляций с наградами (reward hacking) встроен во весь цикл, чтобы предотвратить «обходные пути» системы, при которых показатели оценки искусственно завышаются без реального улучшения.

Это не специализированный инструмент, настроенный под одну конкретную задачу, а универсальная автоматизированная исследовательская рамка, применимая в различных областях. Recursive демонстрирует это с помощью трех сильно отличающихся тестовых сценариев.

Три战场, три новых рекорда

Сценарий 1: Обучение небольших моделей при фиксированном бюджете (NanoChat Autoresearch)

Правила этого бенчмарка взяты из проекта autoresearch, инициированного Андреем Карпати (автором GPT-2, бывшим сооснователем OpenAI): на одном GPU при фиксированном бюджете обучения в пять минут необходимо обучить небольшую языковую модель до минимально возможной потери на валидации (измеряется в BPB, чем ниже, тем лучше).

Этот сценарий идеально подходит для автоматизированных исследований: короткие циклы экспериментов, низкая дисперсия показателей и относительно легкая детекция мошенничества. Именно поэтому сообщественный проект под названием «autoresearch@home» уже длительное время работает на этом базисе — десятки человеческих исследователей и сотни AI-агентов совместно работают над постоянным снижением показателей.

Система Recursive, начав с того же исходного кода, повысила проверку BPB с лучшего в сообществе значения 0,9372 до 0,9109, улучшив показатель на 0,0263 BPB. Другими словами: при том же качестве обучения решение Recursive требует лишь на 1,3 раза меньше времени на обучение, чем у конкурентов.

Обнаруженные улучшения системы не являются единичным решением. Они объединяют изменения архитектуры, вспомогательные потери, модификации механизма внимания, поведение оптимизатора, расписание убывания весов, настройки компилятора и другие изменения. Самым ключевым открытием стала более богатая механизм краткосрочной памяти: в пути значений внимания одновременно встраиваются информация о биграммах (парах соседних слов) и триграммах (тройках) с использованием хеш-таблицы, а затем смешиваются с помощью обучаемого взвешенного гейта. Разные слои Transformer используют различные хеш-функции, что снижает вероятность повторяющихся коллизий между слоями.

Этот подход связан по концепции с такими работами, как DeepSeek Engram, но система внедрила его в виде специфической вариации, ранее не встречавшейся в открытой литературе, в сценарии с фиксированным бюджетом.

Сценарий 2: Соревнование по скорости обучения (NanoGPT Speedrun)

Если предыдущий сценарий предполагал «дальнейшее развитие» на основе достижений активного сообщества, то этот сценарий намного сложнее.

NanoGPT Speedrun — это еще один бенчмарк, инициированный Карпати и постоянно оптимизируемый сообществом более двух лет: минимальное время, необходимое для обучения модели GPT до потери на валидации 3.28 на 8 GPU H100. С середины 2024 года сообщество сократило время с примерно 45 минут до 79,7 секунды за счет 83 задокументированных вкладов. Каждый новый подход требует выжимания дополнительного времени из уже крайне оптимизированного кода — представить, насколько это сложно.

Система Recursive, исходя из существующего оптимального решения, снова сократила время обучения до 77,5 секунды, сэкономив 2,2 секунды. Это соответствует или превышает масштаб улучшений, которых могут достичь недавние человеческие участники.

Ключевые приемы, найденные системой на этот раз, включают:

Вычисление внимания с точностью FP8. Решение сообщества использует FP8 (8-битную плавающую запятую) только в последнем слое модели (языковой голове), тогда как система расширяет FP8 на матричные операции в слоях внимания: прямой проход выполняется с использованием FP8 для достижения двукратной пропускной способности Tensor Core, а обратный проход сохраняет BF16 для обеспечения стабильности.

Аннеалинг-шум в оптимизаторе. В шагах обновления оптимизатора NorMuon в систему вводится гауссовский шум с нулевым средним, амплитуда которого линейно уменьшается до нуля по мере прогресса обучения. Это похоже на то, как если бы оптимизатор следовал модели «сначала смело исследовать, затем уверенно сходиться», помогая конечному решению попасть в более плоскую область потерь.

Более компактная интегрированная ядерная структура MLP. Система переписала ядро Triton для GPU, чтобы во время прямого прохода сохранять только активации после возведения в квадрат ReLU, а во время обратного прохода повторно вычислять не возведённые в квадрат промежуточные результаты внутри ядра, тем самым исключив полный цикл чтения и записи тензора активаций в высокоскоростной видеопамяти — это прямое ускорение на уровне аппаратного обеспечения.

Три улучшения, относящиеся к трем различным профессиональным областям: стратегия точности, дизайн оптимизатора и программирование GPU-ядер. То, что система нашла дополнительное пространство для улучшения на основе двухлетних результатов оптимизации сообщества, само по себе говорит о многом.

Сценарий 3: Оптимизация ядра GPU (SOL-ExecBench)

Первые два сценария работают на уровне обучения модели, третий сценарий углубляется до более низкого уровня: оптимизации вычислительных ядер GPU.

SOL-ExecBench — это базовый тест, разработанный NVIDIA, включающий 235 задач, написанных на ядрах, охватывающих такие реальные рабочие нагрузки, как матричное умножение, сокращение, слои нормализации, компоненты внимания, процедуры квантования и объединенные блоки. Оценка производится по шкале SOL: 0,5 соответствует базовой реализации PyTorch, 1,0 — теоретическому пределу оборудования. Ранее лучший публичный результат составлял 0,699.

Система Recursive работает на 235 ядрах, позволяя повторно использовать обнаруженные оптимизационные шаблоны между задачами (например, стратегии перемещения памяти, способы блокировки, методы сокращения), в результате чего итоговый балл повысился до 0,754, сократив разрыв до аппаратного предела на 18%.

Этот сценарий особенно значим, поскольку ядерная инженерия — это чрезвычайно специализированная область, и инженеры, способные писать эффективные ядра Triton/CUDA, встречаются крайне редко по всему миру. Команда Recursive открыто признает в блоге, что они сами не являются экспертами в области ядер: «Эти идеи исходят из самой системы, а не из нашего профессионального бэкграунда».

Recursive: Использовать ИИ для исследования рекурсивного улучшения ИИ

Компания Recursive Superintelligence, опубликовавшая этот результат, была основана в конце 2025 — начале 2026 года и только в прошлом месяце завершила период скрытого развития; среди основателей — бывший директор научных исследований Meta FAIR Тянь Юаньдун, а также:

Ричард Сохер, генеральный директор Recursive, бывший главный научный сотрудник Salesforce

Алексей Досовицкий, бывший исследовательский ученый Google DeepMind и первый автор Vision Transformer, с более чем 160 000 цитирований в Google Scholar

Тим Роктешель, бывший главный научный сотрудник DeepMind и профессор искусственного интеллекта в UCL

Питер Норвиг, бывший директор по исследованиям Google, совместно со Стюартом Расселом написал известный учебник по искусственному интеллекту «Искусственный интеллект: современный подход».

Цаймин Сюн, бывший вице-президент по ИИ в Salesforce

Тим Ши, бывший исследователь OpenAI, сооснователь и технический директор компании по искусственному интеллекту Cresta

Джош Тобин, технический директор Recursive, бывший руководитель исследований в OpenAI и Uber ATG

Джефф Клайн, бывший вице-президент по исследованиям Google DeepMind, профессор компьютерных наук Университета Британской Колумбии, Канада

И эта стартап-компания, еще не представившая ни одного публичного продукта, уже привлекла 650 миллионов долларов США в финансировании с оценкой в 4,65 миллиарда долларов США, возглавляемым GV (венчурный капитал Google) и Greycroft, с участием NVIDIA и AMD Ventures.

Основная идея компании напрямую соответствует её названию: создание ИИ-систем, способных рекурсивно повышать собственные исследовательские способности, вовлекая ИИ в процесс и ускоряя разработку самого ИИ, в результате чего формируется непрерывный цикл самосовершенствования.

Для получения дополнительной информации см. статью «После ухода из Meta, Тянь Юаньдун только что официально объявил о начале предпринимательской деятельности».

Конечно, на уровне отрасли Recursive не одинока: в марте этого года AMI Labs Янна Лекуна привлекла 1 млрд долларов, а Ineffable Intelligence Дэвида Сильвера — 1,1 млрд долларов в серии seed в апреле, что указывает на схожее направление: позволить ИИ-системам самостоятельно генерировать знания и сократить вмешательство человека в исследовательские процессы. Однако по темпу публикации результатов这份 «первый шаг» от Recursive, вероятно, является одним из самых конкретных и воспроизводимых технических демонстраций среди аналогичных компаний на данный момент.

Рассвет рекурсивной парадигмы

Результат, опубликованный Recursive, в более широком отраслевом контексте представляет собой первое внедрение новой парадигмы разработки ИИ: предоставление ИИ-системам роли основного субъекта исследований.

Основная логика такого «рекурсивного ИИ» несложна: ИИ повышает свои собственные исследовательские способности, улучшенный ИИ может еще эффективнее улучшать себя, и так по кругу. Он не зависит от одного единственного прорыва, а опирается на систему, постоянно генерирующую прорывы.

Этот подход имеет важное значение для экономики самих исследований в области ИИ. Процесс обучения передовых моделей по-прежнему сильно зависит от небольшого числа исследователей, обладающих специфическими навыками, и таких специалистов во всем мире насчитывается менее нескольких тысяч. Если автоматизированная исследовательская система сможет взять на себя даже часть этих задач, скорость и кривая затрат на развитие ИИ изменятся.

Это суждение также находит отклик в других недавних высказываниях отрасли. Например, статья «When AI Builds Itself» от Anthropic, упомянутая в начале этого текста, не отличается легким тоном — она призывает к координации в отрасли и предоставлению возможности приостановить или временно прекратить разработку передовых ИИ в момент наступления рекурсивного самосовершенствования, чтобы дать время социальным структурам и исследованиям по согласованию успеть за темпами. Более подробную информацию см. в статье «Слишком быстрое самоэволюционирование ИИ: Anthropic призывает к глобальной приостановке разработки».

https://www.anthropic.com/institute/recursive-self-improvement

Два события происходят одновременно, что вызывает интерес. С одной стороны, Anthropic фиксирует и предупреждает о направлении этого тренда, а с другой — такие команды, как Recursive, постепенно превращают этот тренд в реальность.

Конечно, Recursive сама признает, что это все еще «первый шаг»: текущая система лучше всего работает в сценариях с четкими показателями, быстрой обратной связью и возможностью обнаружения мошенничества, и до самостоятельного решения открытых научных задач еще далеко. Предотвращение мошенничества в вознаграждениях будет постоянной ключевой проблемой на пути к масштабированию.

Но замкнутый цикл уже начал работать. Следующий вопрос — насколько быстро он будет вращаться.

Эта статья взята из официального аккаунта WeChat «Machine Heart» (ID: almosthuman2014), автор: Machine Heart в процессе рекурсивного развития, редактор: Panda