Recursive Superintelligence presenta su primer sistema automatizado de investigación de IA

Hace unos días, Anthropic publicó un artículo titulado «When AI Builds Itself», que generó rápidamente un amplio debate. El artículo reveló un conjunto de datos internos asombrosos: hasta mayo de 2026, más del 80% del código en la base de código de Anthropic había sido escrito por Claude, y los ingenieros fusionan diariamente una cantidad de código ocho veces mayor que en 2024; en una prueba interna, Claude mejoró la velocidad de ejecución de un fragmento de código de entrenamiento en aproximadamente 52 veces respecto al valor de referencia, mientras que un investigador humano experimentado normalmente requiere entre 4 y 8 horas para lograr una aceleración de 4 veces.

Anthropic dirige esta trayectoria hacia un objetivo más profundo: la «auto-mejora recursiva», donde los sistemas de IA diseñan, construyen y entrenan autónomamente sus propias versiones sucesoras, sin que los humanos impulsen cada paso. Es importante destacar que la empresa también aboga por una coordinación industrial para tener la opción de suspender o incluso detener temporalmente el desarrollo de IA de vanguardia cuando llegue el momento de la auto-mejora recursiva. Además, Anthropic ya lo está haciendo: limita el uso del reciente Claude Fable 5 para la investigación en IA de vanguardia.

Y ahora, Recursive Superintelligence anuncia que da el primer paso hacia la investigación de IA automatizada.

Esta nueva empresa, cofundada por Tian Yuan Dong, acaba de salir de su estado de invisibilidad hace apenas un mes y ahora ha presentado su primer logro técnico público. Han desarrollado un sistema abierto de descubrimiento automático de conocimiento y han logrado resultados SOTA en tres pruebas de referencia. En términos sencillos, lograron que la IA realice experimentos por ti.

https://x.com/tydsh/status/2065062838255649082

Primer resultado: Deja que la IA realice experimentos por ti

Recursive Esta primera publicación técnica se llama «First Steps Toward Automated AI Research» (Pasos iniciales hacia la investigación de IA automatizada).

Tweet: https://x.com/Recursive_SI/status/2064980090702962699
Dirección del repositorio: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Dirección del blog: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

En una frase, el núcleo de este trabajo es: se construyó un sistema capaz de impulsar automáticamente el ciclo de investigación en IA y se lograron nuevos récords en tres pruebas de referencia.

Antes de desglosar los resultados oficiales, es importante comprender la lógica de diseño de este sistema.

El proceso tradicional de investigación en IA es un ciclo altamente dependiente del ser humano: «generar ideas — escribir código — ejecutar experimentos — analizar resultados — generar nuevas ideas». Su cuello de botella de eficiencia no está en la potencia de cómputo, sino en las personas. Solo un número muy limitado de investigadores en todo el mundo pueden diseñar procesos de entrenamiento de vanguardia, y cada iteración experimental requiere su intervención intensa.

El sistema de Recursive intenta automatizar este bucle cerrado.

Funciona así: para un objetivo de optimización claro, el sistema propone automáticamente ideas de experimentos, implementa código, ejecuta validaciones, aprende de ellos y decide cómo continuar la búsqueda. Varias líneas de investigación pueden avanzar en paralelo, y los hallazgos efectivos pueden reutilizarse entre tareas. Además, se incorpora un mecanismo integrado para detectar manipulación de recompensas (reward hacking), evitando que el sistema tome atajos para mejorar métricas de evaluación sin mejorar realmente nada.

Esta no es una herramienta especializada ajustada para un solo problema, sino un marco general de automatización de investigación multidisciplinario. Recursive demuestra esto mediante tres escenarios de prueba notablemente distintos.

Tres frentes, tres nuevos récords

Escenario uno: Entrenamiento de un modelo pequeño con un presupuesto fijo (NanoChat Autoresearch)

Las reglas de esta prueba de referencia provienen del proyecto autoresearch iniciado por Andrej Karpathy (autor de GPT-2 y cofundador anterior de OpenAI): en una sola GPU, con un presupuesto fijo de cinco minutos de entrenamiento, entrenar un modelo de lenguaje pequeño para lograr la pérdida de validación más baja posible (medida en BPB, donde menor es mejor).

Este escenario es naturalmente adecuado para la investigación automatizada: ciclos experimentales cortos, baja varianza de métricas y comportamientos de fraude relativamente fáciles de detectar. Por esta razón, un proyecto comunitario llamado «autoresearch@home» ha estado funcionando durante mucho tiempo en esta referencia: decenas de investigadores humanos junto con cientos de agentes de IA colaboran continuamente para reducir las métricas.

El sistema de Recursive, partiendo del mismo código inicial, mejoró la validación BPB de 0.9372, el mejor valor de la comunidad, hasta 0.9109, una mejora de 0.0263 BPB. En otros términos: con la misma calidad de entrenamiento, la solución de Recursive requiere solo 1.3 veces menos tiempo de entrenamiento que la del competidor.

Las mejoras detectadas por el sistema no son una solución única. Combinan cambios en la arquitectura, pérdidas auxiliares, modificaciones en el mecanismo de atención, comportamiento del optimizador, programación de decaimiento de pesos, configuraciones del compilador y otros ajustes. El descubrimiento más clave es un mecanismo de memoria de contexto corto más rico: en la ruta de valor de la atención, se incrustan simultáneamente información de bigramas (pares de palabras adyacentes) y trigramas (tripletas) mediante tablas hash, combinadas con una ponderación mixta controlada por puertas aprendibles. Cada capa Transformer utiliza funciones hash distintas, reduciendo así la probabilidad de colisiones repetitivas entre capas.

Esta técnica está conceptualmente relacionada con trabajos como DeepSeek Engram, pero el sistema la implementó en un escenario de presupuesto fijo mediante una variante no previamente documentada en la literatura pública.

Escenario 2: Carrera de velocidad límite de entrenamiento (NanoGPT Speedrun)

Si el escenario anterior fue dar un «paso adicional» sobre los logros de una comunidad activa, este escenario es mucho más difícil.

NanoGPT Speedrun es otro benchmark iniciado por Karpathy y optimizado continuamente por la comunidad durante más de dos años: el tiempo más corto necesario para entrenar un modelo GPT hasta una pérdida de validación de 3.28 en 8 GPU H100. Desde mediados de 2024, la comunidad ha reducido el tiempo de aproximadamente 45 minutos a 79.7 segundos mediante 83 contribuciones documentadas. Cada nueva propuesta requiere extraer más tiempo sobre una base de código ya extremadamente optimizada, lo que demuestra la dificultad inherente.

El sistema de Recursive, partiendo de la solución óptima existente, redujo nuevamente el tiempo de entrenamiento a 77.5 segundos, ahorrando 2.2 segundos. Esto es comparable o incluso superior a las mejoras que los contribuyentes humanos han logrado recientemente.

Las técnicas clave encontradas por el sistema esta vez incluyen:

Cálculo de atención con precisión FP8. La solución de la comunidad utiliza FP8 (coma flotante de 8 bits) solo en la última capa del modelo (cabeza del modelo de lenguaje), mientras que el sistema extiende FP8 a las operaciones matriciales en las capas de atención, utilizando FP8 en la propagación hacia adelante para lograr el doble de rendimiento de los Tensor Cores, y manteniendo BF16 en la propagación hacia atrás para preservar la estabilidad.

Ruido de exploración por enfriamiento en el optimizador. El sistema inyecta ruido gaussiano de media cero en los pasos de actualización del optimizador NorMuon, cuya amplitud disminuye linealmente hasta cero a medida que avanza el entrenamiento. Esto imita un patrón de comportamiento de «exploración audaz al principio, convergencia estable al final», ayudando a que la solución final caiga en una cuenca de pérdida más plana.

Núcleo MLP fusionado más compacto. El sistema reescribió un núcleo Triton GPU para que la propagación hacia adelante almacene solo los valores de activación después de elevar al cuadrado el ReLU, y recalcule internamente en el núcleo los resultados intermedios no elevados al cuadrado durante la propagación hacia atrás, eliminando así un ciclo completo de lectura/escritura del tensor de activación en la memoria de alta ancho de banda—una aceleración directa a nivel de hardware.

Tres mejoras, pertenecientes a tres distintos campos profesionales: estrategia de precisión, diseño del optimizador y programación de núcleos GPU. Que el sistema haya encontrado aún más espacio para mejorar tras dos años de optimización comunitaria ya habla por sí solo.

Escenario 3: Optimización del núcleo GPU (SOL-ExecBench)

Los dos primeros escenarios funcionan a nivel de entrenamiento del modelo, mientras que el tercer escenario se adentra en niveles más fundamentales: la optimización de los núcleos de cálculo de GPU.

SOL-ExecBench es una prueba de referencia lanzada por NVIDIA que incluye 235 tareas escritas en kernels, cubriendo diversas cargas de trabajo reales como multiplicación de matrices, reducción, capas de normalización, componentes de atención, rutinas de cuantización y bloques fusionados. La puntuación se mide en puntos SOL: 0.5 corresponde a la implementación de referencia de PyTorch, y 1.0 corresponde al límite teórico del hardware. El mejor resultado público anterior era de 0.699.

El sistema de Recursive se ejecutó en 235 núcleos, permitiendo la reutilización entre tareas de los patrones de optimización descubiertos (por ejemplo, estrategias de transferencia de memoria, técnicas de bloqueo y métodos de reducción), lo que elevó la puntuación final a 0.754, reduciendo en un 18% la brecha con el límite del hardware.

Este escenario es especial porque la ingeniería de kernels es un campo extremadamente especializado: los ingenieros capaces de escribir kernels eficientes en Triton/CUDA son escasos en todo el mundo. El equipo de Recursive admitió en su blog que ellos mismos no son expertos en kernels: «Estas ideas provienen del sistema mismo, no de nuestra experiencia profesional».

Recursive: Usar IA para investigar la recursión y mejorar la IA

La empresa que publicó este logro, Recursive Superintelligence, se fundó a finales de 2025 o principios de 2026 y acaba de salir de su estado de invisibilidad el mes pasado; sus miembros fundadores incluyen, además de Tian Yandong, exdirector de investigación científica de Meta FAIR:

Richard Socher, CEO de Recursive, ex científico principal de Salesforce

Alexey Dosovitskiy, ex científico investigador de Google DeepMind y primer autor del Vision Transformer, con más de 160 000 citas en Google Scholar.

Tim Rocktäschel, ex científico principal de DeepMind y profesor de inteligencia artificial en la UCL

Peter Norvig, exdirector de investigación de Google, coescribió el famoso libro de texto sobre inteligencia artificial, "Artificial Intelligence: A Modern Approach", con Stuart Russell.

Caiming Xiong, exvicepresidente de IA de Salesforce

Tim Shi, exinvestigador de OpenAI, cofundador y CTO de la empresa de IA Cresta

Josh Tobin, CTO de Recursive, exlíder de investigación de OpenAI y Uber ATG

Jeff Clune, exvicepresidente de investigación de Google DeepMind y profesor de ciencias de la computación en la Universidad de Columbia Británica, Canadá

Y la startup, apenas se presentó, incluso sin tener un producto público, ya había recaudado 650 millones de dólares en financiamiento, con una valoración de 4.650 millones de dólares, liderada por GV (Google Ventures) y Greycroft, con participación de NVIDIA y AMD Ventures.

La propuesta central de la empresa se corresponde directamente con su nombre: construir sistemas de IA que puedan mejorar recursivamente su propia capacidad de investigación, permitiendo que la IA participe y acelere el proceso de desarrollo de la IA misma, formando finalmente un bucle de auto-mejora continuo.

Para más detalles, consulte el artículo «Tras dejar Meta, Tian Yuandong acaba de anunciar su emprendimiento».

Por supuesto, en el nivel del赛道, Recursive no está solo. AMI Labs de Yann LeCun completó una ronda de financiación de 1.000 millones de dólares en marzo de este año, e Ineffable Intelligence de David Silver obtuvo una ronda semilla de 1.100 millones de dólares en abril, ambos apuntando en direcciones similares: permitir que los sistemas de IA generen conocimiento de forma autónoma y reduzcan la intervención humana en los procesos de investigación. Pero en cuanto al ritmo de los resultados públicos, este "primer paso" de Recursive es probablemente uno de los desarrollos técnicos más concretos y reproducibles entre las empresas similares hasta la fecha.

El amanecer del paradigma recursivo

El resultado publicado por Recursive representa, en un contexto industrial más amplio, la implementación inicial de un nuevo paradigma de investigación en IA: hacer que el propio sistema de IA asuma el papel principal en la investigación.

La lógica central de esta «IA recursiva» no es compleja: la IA mejora la capacidad de investigación de la IA, y la IA mejorada puede mejorar aún más eficazmente su propio rendimiento, en un ciclo continuo. No depende de un solo avance, sino de un sistema que genera constantemente nuevos avances.

Esta idea tiene importantes implicaciones económicas para la propia investigación de IA. El proceso de entrenamiento de modelos de vanguardia aún depende en gran medida de un pequeño número de investigadores con habilidades específicas, y en todo el mundo solo hay unos pocos miles de personas capaces de realizar este trabajo. Si un sistema de investigación automatizada pudiera asumir siquiera una parte de este trabajo, la velocidad y la curva de costos del avance en IA cambiarían.

Esta evaluación también resuena con otros comentarios recientes del sector. Por ejemplo, el artículo “When AI Builds Itself” de Anthropic, mencionado al inicio de este texto, no tiene un tono ligero: aboga por una coordinación del sector para tener la opción de suspender o incluso detener temporalmente el desarrollo de la IA de vanguardia cuando llegue el momento de la mejora recursiva automática, con el fin de dar tiempo a que las estructuras sociales y la investigación de alineación se pongan al día. Para más detalles, consulte “La autoevolución de la IA es demasiado rápida, Anthropic pide una suspensión global del desarrollo”.

https://www.anthropic.com/institute/recursive-self-improvement

Dos cosas ocurren simultáneamente, lo cual es intrigante. Por un lado, Anthropic registra y alerta sobre la dirección de esta trayectoria; por otro, equipos como Recursive están avanzando paso a paso para hacer realidad esta trayectoria.

Por supuesto, Recursive también reconoce que esto sigue siendo un «primer paso»: el sistema actual funciona mejor en escenarios con indicadores claros, retroalimentación rápida y detección de trampas, y aún queda un largo camino por recorrer para avanzar de forma autónoma en problemas científicos abiertos. La prevención de recompensas por trampas será el desafío central que se enfrentará continuamente en el camino hacia la escalabilidad.

Pero un ciclo cerrado ya ha comenzado a funcionar. La siguiente pregunta es simplemente cuán rápido girará.

Este artículo proviene del número de WeChat "Machine Heart" (ID: almosthuman2014), autor: Machine Heart en evolución recursiva, editor: Panda