Recursive Superintelligence apresenta o primeiro sistema automatizado de pesquisa em IA

Nos últimos dias, a Anthropic publicou um artigo intitulado "When AI Builds Itself", que rapidamente gerou ampla discussão. O artigo revelou um conjunto impressionante de dados internos: até maio de 2026, mais de 80% do código no repositório da Anthropic foi escrito pelo Claude, e os engenheiros estão integrando diariamente uma quantidade de código oito vezes maior do que em 2024; em um teste interno, o Claude aumentou a velocidade de execução de um trecho de código de treinamento em cerca de 52 vezes em relação ao baseline, enquanto um pesquisador humano experiente normalmente leva de 4 a 8 horas para alcançar uma aceleração de 4 vezes.

A Anthropic direciona essa trajetória para um destino mais profundo: "autoaprimoramento recursivo" — sistemas de IA projetam, constroem e treinam autonomamente suas próprias versões subsequentes, sem que humanos impulsionem cada etapa. É importante notar que a empresa também apela por coordenação setorial, buscando a opção de suspender ou até interromper temporariamente o desenvolvimento de IA de ponta quando o momento do autoaprimoramento recursivo chegar. E a Anthropic já está fazendo isso: limitando o uso do mais recente Claude Fable 5 para pesquisa em IA de ponta.

E agora, Recursive Superintelligence anunciou dar o primeiro passo na pesquisa de IA automatizada.

Esta nova empresa, co-fundada por Tian Yuan Dong, acabou de sair do modo invisível há apenas um mês e agora lançou seu primeiro resultado técnico público. Eles desenvolveram um sistema aberto de descoberta automatizada de conhecimento e alcançaram resultados SOTA em três testes de referência. Em resumo, eles conseguiram fazer com que a IA execute experimentos em seu lugar.

https://x.com/tydsh/status/2065062838255649082

Primeiro resultado: deixe o AI executar experimentos para você

Recursive Esta primeira realização técnica pública chama-se «First Steps Toward Automated AI Research» (Passos Iniciais em Direção à Pesquisa Automatizada de IA).

Tweet: https://x.com/Recursive_SI/status/2064980090702962699
Endereço do repositório: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Endereço do blog: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

Em uma frase, o núcleo deste trabalho é: construir um sistema capaz de automatizar o ciclo de pesquisa em IA e alcançar novos recordes em três benchmarks.

Antes de desmontar os resultados oficialmente, é importante compreender a lógica de design deste sistema.

O fluxo de pesquisa tradicional de IA é um ciclo altamente dependente de humanos: “gerar ideias — escrever código — executar experimentos — analisar resultados — gerar novas ideias”. Seu gargalo de eficiência não está na capacidade de processamento, mas nos seres humanos. Apenas um número muito limitado de pesquisadores em todo o mundo pode projetar fluxos de treinamento de ponta, e cada iteração de experimento exige sua intervenção intensa.

O sistema Recursive tenta automatizar este loop fechado.

Funciona da seguinte maneira: para um objetivo de otimização claro, o sistema propõe automaticamente ideias de experimentos, implementa código, executa validações, aprende com os resultados e decide qual será o próximo passo na busca. Várias linhas de pesquisa podem ser avançadas em paralelo, e descobertas eficazes podem ser reutilizadas entre tarefas. Mecanismos integrados de detecção de manipulação de recompensa (reward hacking) são incorporados a todo o ciclo, impedindo que o sistema "pegue atalhos" para aumentar métricas de avaliação sem realmente melhorar nada.

Este não é uma ferramenta especializada ajustada para um único problema, mas sim um framework geral de automação de pesquisa multi-disciplinar. O Recursive demonstra isso por meio de três cenários de teste significativamente distintos.

Três campos de batalha, três novos recordes

Cenário um: Treinamento de modelo pequeno com orçamento fixo (NanoChat Autoresearch)

As regras deste benchmark provêm do projeto autoresearch iniciado por Andrej Karpathy (autor do GPT-2 e ex-cofundador da OpenAI): em uma única GPU, com um orçamento fixo de cinco minutos de treinamento, treine o menor modelo de linguagem possível para alcançar a menor perda de validação possível (medida em BPB, onde valores mais baixos são melhores).

Este cenário é naturalmente adequado para pesquisa automatizada: ciclos experimentais curtos, baixa variância de métricas e comportamentos de fraude relativamente fáceis de detectar. Por isso, um projeto comunitário chamado "autoresearch@home" já está rodando há muito tempo neste benchmark — dezenas de pesquisadores humanos e centenas de agentes de IA colaboram continuamente para reduzir as métricas.

O sistema Recursive, partindo do mesmo código inicial, melhorou a validação BPB de 0,9372, o melhor da comunidade, para 0,9109, uma melhoria de 0,0263 BPB. Em outros termos: com a mesma qualidade de treinamento, a solução do Recursive requer apenas 1,3 vez menos tempo de treinamento que a concorrência.

As melhorias detectadas pelo sistema não são uma solução única. Elas combinam várias alterações, incluindo ajustes na arquitetura, perdas auxiliares, modificações no mecanismo de atenção, comportamento do otimizador, agendamento de decaimento de peso e configurações do compilador. Um dos descobertas mais cruciais é um mecanismo de memória de contexto curto mais rico: na trajetória de valor da atenção, informações de bigramas (pares de palavras adjacentes) e trigramas (tripletas) são incorporadas simultaneamente por meio de uma tabela de hash, combinadas por meio de uma ponderação mista com portas aprendíveis. Diferentes camadas do Transformer utilizam funções de hash distintas, reduzindo assim a probabilidade de colisões repetidas entre camadas.

Esta técnica está conceitualmente relacionada a trabalhos como o DeepSeek Engram, mas o sistema a implementou em um cenário de orçamento fixo sob uma variante ainda não documentada na literatura pública.

Cenário dois: Corrida de velocidade de treinamento (NanoGPT Speedrun)

Se o cenário anterior foi um passo adicional construído sobre os resultados de uma comunidade ativa, este cenário é muito mais difícil.

NanoGPT Speedrun é outro benchmark iniciado por Karpathy e continuamente otimizado pela comunidade por mais de dois anos: o menor tempo necessário para treinar um modelo GPT até uma perda de validação de 3,28 em 8 GPUs H100. Desde meados de 2024, a comunidade reduziu o tempo de aproximadamente 45 minutos para 79,7 segundos por meio de 83 contribuições documentadas. Cada nova abordagem exige extrair mais tempo de um código já extremamente otimizado, o que demonstra a clareza da dificuldade.

O sistema Recursive partiu da melhor solução existente e reduziu novamente o tempo de treinamento para 77,5 segundos, economizando 2,2 segundos. Isso corresponde ou supera as melhorias recentes alcançadas por contribuidores humanos.

As técnicas principais encontradas pelo sistema desta vez incluem:

Cálculo de atenção com precisão FP8. A solução da comunidade utiliza FP8 (ponto flutuante de 8 bits) apenas na última camada do modelo (cabeça do modelo de linguagem), enquanto o sistema estende o FP8 para as operações matriciais nas camadas de atenção, utilizando FP8 na propagação direta para obter o dobro do throughput dos Tensor Cores e mantendo BF16 na propagação reversa para preservar a estabilidade.

Ruído de exploração por annealing no otimizador. O sistema injeta ruído gaussiano de média zero nos passos de atualização do otimizador NorMuon, com a amplitude do ruído reduzindo linearmente até zero à medida que o treinamento avança. Isso confere ao otimizador um comportamento semelhante a “explorar ousadamente no início, depois convergir de forma estável”, ajudando a solução final a cair em uma região de perda mais plana.

Núcleo MLP fusionado mais compacto. O sistema reescreveu um núcleo Triton GPU para armazenar apenas os valores de ativação após o ReLU ao quadrado durante a propagação direta e recalcular internamente no núcleo os resultados intermediários não quadrados durante a retropropagação, eliminando uma ida e volta completa do tensor de ativação na memória de alta largura de banda — uma aceleração direta no nível de hardware.

Três melhorias, pertencentes a três diferentes áreas profissionais: estratégia de precisão, design do otimizador e programação de kernels GPU. O fato de o sistema ter encontrado espaço para aprimoramento após dois anos de otimização pela comunidade já demonstra o problema.

Cenário 3: Otimização do núcleo GPU (SOL-ExecBench)

Os dois primeiros cenários operam no nível de treinamento do modelo, enquanto o terceiro cenário aprofunda-se até a otimização dos núcleos de cálculo da GPU.

SOL-ExecBench é um benchmark lançado pela NVIDIA, contendo 235 tarefas escritas em kernels, cobrindo diversas cargas de trabalho reais, como multiplicação de matrizes, redução, camadas de normalização, componentes de atenção, rotinas de quantização e blocos fusionados. A pontuação é medida pelo escore SOL: 0,5 corresponde à implementação de referência em PyTorch e 1,0 corresponde ao limite teórico do hardware. O melhor resultado público anterior era de 0,699.

O sistema Recursive foi executado em 235 núcleos, permitindo a reutilização cruzada de padrões de otimização descobertos (por exemplo, estratégias de movimentação de memória, formas de particionamento e técnicas de redução), aumentando a pontuação final para 0,754 e reduzindo em 18% a distância em relação ao limite do hardware.

Este cenário é especial porque a engenharia de kernels é um campo altamente especializado — engenheiros capazes de escrever kernels eficientes em Triton/CUDA são raros em todo o mundo. A equipe Recursive admitiu em seu blog que eles próprios não são especialistas no campo de kernels: “Essas ideias surgiram do próprio sistema, e não da nossa formação profissional.”

Recursive: Usar IA para pesquisar recursão e aprimorar a IA

A empresa que lançou este resultado, Recursive Superintelligence, foi fundada no final de 2025 ao início de 2026 e acabou de sair do estado de invisibilidade no mês passado; além de Tian Yandong, ex-diretor de pesquisa científica do Meta FAIR, seus membros fundadores incluem:

Richard Socher, CEO da Recursive, ex-cientista-chefe da Salesforce

Alexey Dosovitskiy, ex-cientista de pesquisa do Google DeepMind e primeiro autor do Vision Transformer, com mais de 160 mil citações no Google Scholar

Tim Rocktäschel, ex-cientista principal da DeepMind e professor de inteligência artificial da UCL

Peter Norvig, ex-diretor de pesquisa do Google, coescreveu o famoso livro-texto da área de IA, "Artificial Intelligence: A Modern Approach", com Stuart Russell.

Caiming Xiong, ex-vice-president de IA da Salesforce

Tim Shi, ex-pesquisador da OpenAI, cofundador e CTO da empresa de IA corporativa Cresta

Josh Tobin, CTO da Recursive, ex-líder de pesquisa da OpenAI e Uber ATG

Jeff Clune, ex-vice-president de pesquisa do Google DeepMind e professor de ciência da computação da Universidade da Colúmbia Britânica, Canadá

E a startup, logo em sua estreia, mesmo sem ter um produto público, já arrecadou US$ 650 milhões em financiamento, com uma avaliação de US$ 4,65 bilhões, liderada pela GV (Google Ventures) e Greycroft, com participação da NVIDIA e AMD Ventures.

A proposta central da empresa corresponde diretamente ao seu nome: construir sistemas de IA que possam recursivamente aprimorar sua própria capacidade de pesquisa, permitindo que a IA participe e acelere o próprio processo de desenvolvimento da IA, formando finalmente um ciclo contínuo de autoaperfeiçoamento.

Para mais detalhes, consulte a matéria “Após deixar o Meta, Tian Yuan Dong acaba de anunciar seu empreendimento”.

Claro, no nível da área, Recursive não está sozinho. A AMI Labs de Yann LeCun arrecadou US$ 1 bilhão em março deste ano, e a Ineffable Intelligence de David Silver obteve uma rodada semente de US$ 1,1 bilhão em abril, ambos apontando na mesma direção: permitir que sistemas de IA gerem conhecimento autonomamente, reduzindo a intervenção humana nos processos de pesquisa. Mas em termos de ritmo de divulgação de resultados, este "primeiro passo" da Recursive é provavelmente um dos mais concretos e reproduzíveis entre as empresas do mesmo tipo até agora.

A aurora do paradigma recursivo

O resultado lançado pela Recursive representa, em um contexto setorial mais amplo, a implementação inicial de um novo paradigma de pesquisa em IA: fazer com que o próprio sistema de IA assuma o papel principal na pesquisa.

A lógica central desse tipo de "IA recursiva" não é complexa: a IA melhora a capacidade de pesquisa da IA, e a IA aprimorada pode, por sua vez, aprimorar-se ainda mais, em um ciclo contínuo. Ela não depende de uma única ruptura, mas sim de um sistema que gera continuamente rupturas.

Essa abordagem tem importância significativa para a economia da própria pesquisa em IA. O processo de treinamento de modelos de ponta ainda depende fortemente de poucos pesquisadores com habilidades específicas, e globalmente há menos de alguns milhares de pessoas capazes de realizar esse trabalho. Se um sistema de pesquisa automatizado pudesse assumir mesmo uma parte desse trabalho, a velocidade e a curva de custos do avanço da IA mudariam.

Essa avaliação também ressoa com outras vozes recentes do setor. Por exemplo, o artigo “When AI Builds Itself”, mencionado no início deste texto, não tem um tom leve — ele apela pela coordenação do setor, buscando a opção de suspender ou até interromper temporariamente o desenvolvimento de IA avançada no momento em que a autoaprimoração recursiva ocorrer, a fim de permitir que as estruturas sociais e a pesquisa de alinhamento acompanhem o ritmo. Para mais detalhes, consulte “IA se autoevoluindo muito rápido, Anthropic pede suspensão global do desenvolvimento”.

https://www.anthropic.com/institute/recursive-self-improvement

Dois eventos ocorrendo simultaneamente são intrigantes. De um lado, a Anthropic está registrando e alertando sobre a direção dessa trajetória; de outro, equipes como a Recursive estão passo a passo tornando essa trajetória uma realidade.

Claro, o Recursive também reconhece que isso ainda é apenas o “primeiro passo”: o sistema atual funciona melhor em cenários com indicadores claros, feedback rápido e detecção de trapaças, ainda estando bastante distante de avançar autonomamente em problemas científicos abertos. A prevenção de recompensas para trapaças será o desafio central contínuo na jornada de escala.

Mas um ciclo fechado já começou a funcionar. A próxima pergunta é apenas quão rápido ele girará.

Este artigo é do canal do WeChat "Machine Heart" (ID: almosthuman2014), autor: Machine Heart em evolução recursiva, editor: Panda