El ganador del Premio Turing y padre del aprendizaje por refuerzo, Richard Sutton, critica las limitaciones inherentes de la IA generativa actual: lo bueno no es nuevo, y lo nuevo no es bueno.

Autor y fuente del artículo: Nuevos智元

IA: Lo bueno no es novedoso, lo novedoso no es bueno

Una de las críticas más venenosas en el mundo académico es:

Este trabajo es innovador y excelente.

Lamentablemente, lo bueno no es novedoso y lo novedoso no es bueno.

Pero Richard Sutton, uno de los pioneros del campo del aprendizaje por refuerzo, autor del libro de texto "Reinforcement Learning" y ganador del Premio Turing, dirigió este chiste contra toda la IA generativa.

Él dijo: Esta evaluación se aplica a la mayoría de la IA que conocemos hoy.

IA: Lo bueno no es novedoso, lo novedoso no es bueno

La afirmación central de Sutton es extremadamente simple, tan simple que es cruel.

La IA generativa es esencialmente aprendizaje supervisado.

La lógica del aprendizaje supervisado es: mostrarle al modelo una gran cantidad de muestras creadas por humanos para que aprenda a imitar.

Cuanto más parecido sea el imitación, más alta será la puntuación.

Surge la pregunta.

Cuando el modelo genera contenido estrictamente según los datos de entrenamiento, la calidad de la salida es alta, ya que está reproduciendo cosas buenas ya verificadas por los humanos. Pero esto no es novedoso. Simplemente está reempaquetando lo que los humanos ya conocen, con diferentes combinaciones.

Cuando el modelo intenta desviarse de los datos de entrenamiento y generar contenido verdaderamente nuevo, la calidad se desmorona. Porque no tiene ningún mecanismo interno para evaluar «si esta nueva cosa es buena o no». Solo genera, no evalúa.

Esa es la contradicción estructural:

Novedad y calidad son los extremos de una balanza en el marco del aprendizaje supervisado puro.

Cuando presionas un extremo, el otro se levanta.

No es un problema de ingeniería. No se puede resolver simplemente acumulando datos, ampliando modelos o añadiendo más GPU.

Sutton utilizó una analogía extremadamente llamativa: «alucinaciones» —el defecto más criticado de los grandes modelos— son esencialmente un subproducto del intento del modelo por ser «novedoso».

Odiamos las ilusiones, lo que demuestra exactamente una cosa: en realidad no queremos novedad. Solo queremos imitaciones de alta calidad.

Lo bueno no es novedoso, lo novedoso no es bueno.

La crítica venenosa del revisor en ese chiste describió con precisión las limitaciones inherentes de toda la IA generativa.

El verdadero «descubrimiento» requiere un conjunto de tres elementos

Sutton, desde los primeros principios, desglosó la «fórmula trinitaria» de la creatividad:

El verdadero descubrimiento (Discovery) = variación (Variation) + evaluación (Evaluation) + retención selectiva (Retention).

Cualquier verdadera creatividad y descubrimiento requiere tres pasos, ninguno de los cuales puede faltar:

1. La variación genera posibilidades diversificadas. Puede ser aleatoria o basada en conocimientos previos, pero debe haber verdadera incertidumbre; de lo contrario, no se llama exploración, sino consulta de una tabla.

2. Evaluación: Determinar qué variaciones tienen valor. Esto requiere un objetivo claro o un criterio que permita identificar lo "bueno" y lo "malo".

3. Retención selectiva: conserva las variaciones valiosas para que influyan en acciones y aprendizajes futuros.

Estos tres pasos no son una invención de Sutton. Es la lógica de la selección natural, la lógica del método científico, la lógica del aprendizaje humano.

Teoría de la evolución: mutaciones genéticas aleatorias (variación) → selección ambiental (evaluación) → supervivencia del más apto (retención selectiva).

Método científico: plantear una hipótesis (variación) → experimentar para verificar (evaluación) → publicar un artículo (retención selectiva).

Aprendizaje humano: probar diferentes soluciones (variación) → verificar si son correctas o incorrectas (evaluación) → recordar los métodos efectivos (retención selectiva).

Ahora, la IA generativa solo ha completado el primer paso de la Trinidad: casi ninguna evaluación, por no hablar de la retención selectiva,

Es como un arquero que dispara flechas al azar, pero con los ojos vendados, y después de disparar, ni mira el blanco ni ajusta su postura según el resultado.

Le pides que dispare diez mil flechas; de vez en cuando, acierta en el blanco, pero nunca sabe por qué acertó.

¿Entonces, los científicos todavía son útiles?

Aquí es posible que te sientas un poco ansioso: si en el futuro la IA realmente puede completar autonomamente la trinidad de “descubrimiento”, ¿los científicos perderán sus trabajos?

La respuesta propia de Sutton es: no puede ser reemplazado, pero el rol debe transformarse por completo.

En su discurso, dijo que incluso una IA capaz de probar teoremas matemáticos de forma independiente aún necesita que los humanos le indiquen cuáles problemas son importantes.

No es modestia, sino el límite real del conocimiento.

El matemático Shiqian Ma, experto en optimización de la Universidad de Rice, dijo: utilizó ChatGPT para demostrar un problema de convergencia de un algoritmo que había estado estudiando durante seis años completos.

En el resumen hay una frase:

Probado por ChatGPT 5.5 y verificado por el autor.

Este algoritmo se llama BDRS, cuyo nombre completo es Bregman Douglas-Rachford Splitting, y se utiliza para resolver problemas de transporte óptimo (Optimal Transport).

Título del artículo: Método de división Bregman Douglas-Rachford

Dirección del preimpreso:

Esto es algo que él y sus coautores diseñaron por sí mismos; lo que lo preocupó durante seis años fue la prueba de convergencia, es decir, la explicación matemática más rigurosa de «por qué es correcto».

La plataforma de preimpresiones arXiv aún mantiene la solicitud en espera tras recibir la entrega.

Él supone que la razón es que el resumen contiene las tres palabras «ChatGPT», y la plataforma no sabe cómo manejar este tipo de artículos.

¿Pueden los humanos ser reemplazados por la IA?

Su respuesta fue: no. Él dijo francamente:

Creo que la IA no puede proponer creativamente este algoritmo y afirmar: «Este es un algoritmo eficiente para el transporte óptimo; ahora intentaré demostrar su convergencia».

Sin la guía humana, la IA no sabe qué problema resolver.

Esta frase coincide exactamente con Sutton: el problema en sí debe ser definido por humanos.

Él tardó seis años en "hacer la pregunta correcta":

¿Qué preguntas hacer realmente requiere que tengas un conocimiento muy profundo sobre el tema?

En este caso, he investigado este problema durante seis años, por lo que conozco bien sus dificultades.

Estos seis años no fueron una pérdida, sino una condición previa.

Fueron precisamente estos seis años los que le permitieron saber en qué punto fallaba la prueba, cuáles eran las razones por las que todas las rutas anteriores habían fracasado, y qué dirección sugerida por ChatGPT merecía seguir persiguiendo y cuál era una ilusión.

Y no fue una sola vez, sino cinco meses. Este es el punto más malinterpretado, y él mismo lo malinterpretó:

Desde enero hasta mayo, cinco meses enteros, innumerables conversaciones, cada indicación se acercaba más a esa prueba.

Él resumió con extrema claridad:

La esencia de la investigación no ha cambiado: sigue siendo prueba y error. Lo que ha cambiado es la velocidad de cada intento: antes se necesitaban semanas para validar una dirección, ahora en minutos se sabe si este camino es viable.

Pero la contribución de la IA es indeleble:

Luego, el final directamente se convierte en leyenda:

Regresando a mi artículo sobre la convergencia de BDRS, estoy bastante seguro de que la demostración es correcta.

Pero si encuentras algún error, la responsabilidad es mía: no le eches la culpa a ChatGPT, que solo tiene 3.5 años.

Lo brillante de esta frase es su dualidad: es una declaración sincera de responsabilidad y también una metáfora precisa.

«3.5 años» describe la situación real de la IA en este momento: capacidad asombrosa, pero juicio aún inmaduro.

Después de todo, la humanidad nunca ha esperado que un niño de 3.5 años haga alguna contribución.

Aunque no puedes transferir el derecho final de firma de la prueba a una IA, tampoco puedes fingir que la IA no hizo ninguna contribución.

Por eso es que los verdaderos descubrimientos científicos no desaparecen en manos humanas.

En cambio, filtrará a los humanos de manera más implacable: solo quienes puedan hacer buenas preguntas merecerán tener una IA poderosa.

En el futuro, los científicos que no utilicen IA podrían resultar tan obsoletos como los astrónomos que no usan computadoras.

Finalmente, recordemos juntos las palabras de Sutton, de naturaleza casi declarativa:

Si deseamos aprovechar plenamente el poder de los científicos de IA, debemos compartir con ellos nuestros objetivos para que puedan crear, evaluar y descubrir, participando así plenamente en su logro.

¡Seamos atrevidos! ¡Automatizemos por completo la creatividad y el descubrimiento!

ChatGPT resuelve un problema matemático de 6 años, el ganador del Premio Turing dice: "Es demasiado pronto para celebrar"

El verdadero «descubrimiento» requiere un conjunto de tres elementos

¿Entonces, los científicos todavía son útiles?