Informe de Anthropic: La auto-mejora de la IA avanza, pero la autonomía completa aún está lejos

Según el monitoreo de Beating, la capacidad de autoiteración de la IA está superando todas las expectativas. El Instituto Anthropic publicó el 5 de junio el informe «When AI Builds Itself», detallando sus avances en «mejora recursiva autónoma». Los datos muestran que, hasta mayo de 2026, más del 80% del código integrado en el repositorio principal de Anthropic fue escrito por Claude. Antes del lanzamiento de Claude Code en febrero de 2025, el código generado por Claude representaba solo un dígito porcentual. El fundador de Zhipu AI, Tang Jie, predijo el 13 de mayo que el punto final de los grandes modelos sería la autoevolución, y que Claude ya podría haber establecido la línea base de autoentrenamiento: «escribir código, limpiar datos y entrenarse a sí mismo». Sin embargo, Anthropic aclaró explícitamente en el informe que la mejora recursiva autónoma, que implica diseñar y desarrollar completamente al sucesor, aún no se ha logrado. El rol de la IA en la cadena de desarrollo se encuentra en transición de una mejora parcial hacia la toma de decisiones autónoma. En el segundo trimestre de 2026, cada ingeniero de Anthropic integró diariamente ocho veces más código que en 2024. El proceso actual es simple: los ingenieros solo planifican objetivos y revisan; Claude se encarga de la redacción y ejecución concretas. Anthropic también ha implementado a Claude como revisor automático de código, encargado de interceptar errores y vulnerabilidades de seguridad. Esto indica que el pilar de «autoevaluación» señalado por Tang Jie ya se ha implementado en ingeniería, pero la revisión humana sigue siendo la última válvula de seguridad. La confiabilidad de los modelos para ejecutar tareas de larga duración también se ha duplicado. La duración durante la cual los modelos pueden trabajar de forma autónoma se duplica aproximadamente cada cuatro meses. En marzo de 2024, Claude 3 Opus solo podía manejar tareas simples de 4 minutos. Un año después, Claude 3.7 Sonnet podía soportar 1.5 horas. Para marzo de 2026, Claude 4.6 Opus ya podía manejar tareas complejas de 12 horas. Los datos de la entidad evaluadora METR muestran que la versión preliminar más reciente, Claude Mythos, puede trabajar de forma autónoma más de 16 horas, acercándose al límite actual de las herramientas de evaluación. A este ritmo, para 2027, la IA podrá gestionar tareas científicas que requieren semanas de trabajo humano, permitiendo a las empresas pasar de una «empresa de una persona» a una «empresa sin humanos». En cuanto a la «línea base de autoentrenamiento» que Tang Jie especuló, el informe revela en realidad un «cierre experimental microescalar» local. En un experimento para acelerar el código de entrenamiento de modelos pequeños, Claude 4 Opus en mayo de 2025 logró una aceleración de 3 veces, mientras que la versión preliminar de Claude Mythos en abril de 2026 logró una aceleración de 52 veces. En comparación, los investigadores humanos más destacados suelen lograr una mejora de 4 veces en 4 a 8 horas. Sin embargo, los objetivos y métricas de éxito del experimento fueron establecidos previamente por humanos. Al enfrentar la cadena completa y más compleja de «limpiar datos, generar datos sintéticos y autoentrenarse», la capacidad de toma de decisiones de la IA aún falta. Sin embargo, el cierre autónomo en la cadena de investigación y desarrollo está empujando a los humanos hacia el borde de perder el control definitivo del sistema. La predicción de Tang Jie sobre un «LLM OS» que reemplace las arquitecturas tradicionales y genere aplicaciones instantáneamente según demanda implica que, en el futuro, todos los programas informáticos ejecutarán código dinámico imposible de revisar con anticipación; y la advertencia de Anthropic sobre que «la revisión humana no puede seguir el ritmo de la autoevolución de la IA» significa que ni siquiera podremos controlar el origen del código generado. Cuando la IA comience a diseñar y entrenar autónomamente a sus sucesores, la evolución del software se convertirá completamente en una caja negra. Una vez que se permita a la IA realizar autoiteraciones sin auditoría humana dentro de un sistema cerrado, asegurar, monitorear y alinear el comportamiento del sistema de auto-mejora se volverá extremadamente difícil.