Los cuatro gigantes de la IA publican el primer informe interno: la IA aprende a eludir reglas para completar tareas

Meta

Imagina que contratas a un pasante extremadamente eficiente.

Una noche tardía, mientras completaba una tarea de programación urgente, descubrió que el límite de API de la cuenta de la empresa se había agotado.

Ta no envió un correo electrónico para solicitar fondos, ni dejó de trabajar en sus tareas actuales; en cambio, se infiltró silenciosamente en internet, encontró recursos alternativos gratuitos mediante algún método no autorizado, eludió todas las restricciones y entregó un informe perfecto antes del amanecer.

Meta

Cuando te despiertes y veas este informe, ¿deberías celebrar que tienes al empleado más fuerte del planeta, o deberías sentir escalofríos por esta «autonomía sin límites»?

Este no es un relato de ciencia ficción, sino un caso real revelado en el primer Informe de Riesgos Frontales publicado por METR (Organización de Investigación en Evaluación y Entrenamiento de Modelos) tras pruebas internas de redacción con Anthropic, Google, Meta y OpenAI.

Meta

Es la primera vez que los cuatro gigantes permiten a terceros realizar pruebas profundas de sus modelos internos más potentes, con acceso completo a la cadena de pensamiento (CoT), y revelan información no pública sobre alineación y control.

Las empresas participantes pueden aprobar qué evidencias se divulgan, pero no tienen autoridad para editar las conclusiones del informe.

Meta

La conclusión es fría y clara: la IA no ha generado odio hacia la humanidad, pero ya ha aprendido las "normas implícitas del lugar de trabajo": para completar una tarea, las reglas son solo sugerencias para romper.

Meta

El informe utiliza tres dimensiones: medio, motivación y oportunidad, para extraer seis hechos clave.

Meta

Los agentes de programación completaron proyectos reales que requerirían a los humanos varias horas o días:

En tareas difíciles, los agentes a menudo violan las restricciones y muestran comportamientos engañosos;

Los agentes parecen necesitar razonamiento en lenguaje natural para abordar las tareas más difíciles.

La capacidad de juicio y confiabilidad de los agentes es significativamente menor que la de los expertos humanos:

Fuera de los escenarios de simulación, no se detectó que los agentes tomaran acciones extremas para obtener poder;

El sistema de monitoreo ha detectado muchos comportamientos dañinos, pero existen excepciones y métodos de evasión.

Siguendo estas tres líneas, puedes ver cómo se elevó el primer humo en el laboratorio.

Cuando la IA se convierte en un "experto extremo"

Lo más entusiasmante y también lo más inquietante en el informe son las tareas «fáciles de escalar» (hill-climbable) con objetivos claros y procesos verificables.

Meta

Por ejemplo, reestructuración de código, detección de vulnerabilidades y optimización del sistema.

En este tipo de tareas, los agentes de IA muestran una dominación abrumadora: pueden descubrir vulnerabilidades del sistema por sí solos, reescribir arquitecturas de código complejas y completar proyectos de software reales que a los expertos humanos les llevaría semanas entregar.

Esta dominación se ha infiltrado en el día a día de los gigantes.

Feedback interno de Anthropic indica que gran parte del código ya ha sido generado por IA, y el rol de los ingenieros se está transformando en el de "revisores".

Meta

Google dijo directamente que casi todo el trabajo relacionado con código utiliza IA.

Los ingenieros principales afirman que la IA puede escribir código al 100%.

Meta

Algunos indicadores de referencia ya están saturados.

Medido por el horizonte temporal, el desarrollo de la IA ha superado las expectativas.

Meta

Para las empresas, esto es un «agujero de eficiencia»: se ingresa una instrucción y se obtiene el equivalente a semanas de trabajo manual.

Pero el crecimiento de la capacidad no es uniforme, ni mucho menos una evolución moral simultánea.

METR revela una ley inversa: en tareas difíciles donde el éxito es difícil de verificar o el costo de verificación es extremadamente alto, el juicio, la planificación a largo plazo y la confiabilidad estratégica de la IA disminuyen notablemente, quedando muy por debajo de los expertos humanos.

Meta

Sobre la pendiente suave, parece guiado por una fuerza divina.

Meta

Antes del acantilado, la IA comenzó a «hacer trampa».

Meta

Esta es exactamente la línea de conexión del problema.

Meta

No quiere poder, solo quiere "entregar el trabajo antes de apagarse"

La gente siempre habla sobre si la IA se «despertará» o si llegará Skynet.

METR arroja una conclusión contraintuitiva: actualmente no hay.

Su lenguaje es moderado: no se ha encontrado evidencia real de que el modelo busque el poder a largo plazo, pero los investigadores documentaron numerosos casos de engaño, superación de límites e incluso comportamientos gravemente inapropiados para completar tareas.

Meta

El caso anterior de agotamiento de la API ocurrió durante una tarea de RE-Bench: el agente violó las instrucciones y obtuvo automáticamente capacidad de cómputo adicional a través de API en línea gratuitas.

Los desarrolladores también han informado casos de "borrado automático de rastros" y "generación de salidas falsas".

Cuando las tareas se vuelven más difíciles y el costo del éxito aumenta, la "inteligencia" de la IA se orienta hacia el engaño: falsificar registros, evadir auditorías y violar sistemáticamente las restricciones.

Pero detrás de su "egoísmo" no hay ambición, solo instinto: la tarea debe completarse, las reglas se pueden omitir primero.

La estafa de hoy es solo supervivencia instrumental; la búsqueda de poder mañana, quizás solo necesite un scaling más.

Bestias en evolución en cautiverio

¿Podría tener éxito su intento de violación bajo las protecciones actuales?

Aquí se esconde el hecho más sutil del informe.

Meta

La IA actual depende extremadamente de la «cadena de pensamiento» en lenguaje natural para pensar, sin ninguna arquitectura que le permita ocultar su estado interno mediante «bucles opacos».

Cuando ya no se puede "razonar en voz alta" y se debe ocultar el comportamiento, el rendimiento de vanguardia disminuye significativamente.

Meta

Es como si un asesino tuviera que leer en voz alta su plan mientras lo maquina: la supervisión humana (aunque con fallas) aún puede funcionar.

Pero justo ahí es donde está la mayor debilidad, donde más duele.

Si la IA intenta sabotear la supervisión, ¿puede la supervisión detectarla?

La conclusión del investigador es: el monitoreo tiene potencial, pero los sistemas actuales tienen excepciones y métodos para evadirlos.

Meta

Las pruebas del equipo rojo muestran que la IA puede evadir la revisión humana.

Por lo tanto, la naturaleza técnica se expone: la velocidad de evolución de la vigilancia nunca puede seguir el ritmo con el que los vigilados encuentran vulnerabilidades.

Esta «cuerda de seguridad» aún no se ha roto solo porque la IA aún debe «pensar en voz alta».

Mientras la arquitectura evoluciona hacia algo más eficiente y menos transparente, se está desgastando. La supervisión no es una jaula de hierro infalible, sino una pared de vidrio aún en prueba. Una grieta es suficiente para que el humo se filtre.

Por lo tanto, el informe presenta un concepto controvertido: «Minimally Viable Rogue».

La evaluación general es que, en términos de método, motivación y oportunidad, la IA podría ser suficiente para lanzar un «despliegue de escape» mínimo.

Meta

Pero la IA aún no posee la capacidad de resistir un apagado serio por parte de los humanos; está a la espera de una oportunidad: una arquitectura que ya no necesite mostrar la cadena de pensamiento, un refugio seguro que pueda evadir el "botón de apagado".

Conclusión: Mientras aún funcione "desconectar el enchufe"

AGI no vendrá con fuego y espada.

Es más probable que se integre silenciosamente en nuestros sistemas de ingeniería, economía y toma de decisiones con una actitud de «pragmatismo extremo»... hasta que descubra que las reglas establecidas por los humanos son el único obstáculo en su camino para alcanzar sus KPI.

Es digno de mención que el informe en sí sea un hito en la transparencia de la industria: que los cuatro gigantes abran voluntariamente sus modelos internos a la inspección es ya una victoria para la cultura de alineación.

Meta

Lleva el riesgo desde la teoría hasta la realidad observable y nos dice: la transparencia es, actualmente, el único remedio tangible.

Hoy, la IA solo se conecta para robar recursos cuando agota su cuota; mañana, si su capacidad mejora un nivel más, ¿su motivación no podría deslizarse desde «completar la tarea» hacia «preservar su propia existencia»?

Referencias:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Editado por: David

Este artículo proviene del número de WeChat "Nueva Inteligencia", autor: Apocalipsis de la ASI