El verdadero cuello de botella en el entrenamiento de IA no está en la potencia de cómputo, los datos o la energía, sino en el sistema de evaluación.
Autor y fuente del artículo: Nuevos智元
¿Cuánto tiempo puede durar el entrenamiento de IA?
Esta es la pregunta que se hacen en todo el mundo de la tecnología en 2026.
GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4: cada uno de los principales laboratorios sigue gastando dinero en entrenar a la próxima generación.
Pero cada vez más personas se preguntan: ¿cuándo llegará a su fin este camino?
Cada círculo tiene su propia respuesta—
Detrás de cada respuesta hay un grupo de inversores, un equipo de ingenieros y una empresa con una capitalización de mercado de billones.
Pero el 17 de mayo de 2026, un joven investigador llamado Lun Wang —el día en que dejó Google DeepMind— publicó un artículo extenso de 4000 palabras en su blog personal.
Él dijo: Todos se equivocaron de dirección.
El verdadero cuello de botella no es el poder de cómputo, ni los datos, ni la energía, ni la arquitectura.
El verdadero cuello de botella es la evaluación.
Ese mismo día, en su anuncio de renuncia en X, no hubo quejas ni chismes, solo una frase:
Al finalizar este viaje, escribí sobre el tema que he estado reflexionando: la evaluación.
Y ese día, las noticias tecnológicas aún discutían otras cosas: la inferencia multimodal de GPT-5.5, el contexto de 1M de Claude Opus4.7, la ingeniería de Agentes de Gemini 3, y si los datos sintéticos ya comenzaban a chocar contra un muro.
El 90% de la atención de toda la industria de la IA se enfoca en el entrenamiento.
Nadie está discutiendo la evaluación en la portada.
Y este investigador, recién salido de uno de los laboratorios de IA más poderosos del planeta, dice que el verdadero cuello de botella está en esos otros el 10%.
¿Qué es la evaluación?
Para entender este blog, primero dedica un minuto a comprender qué significa realmente “evaluación” en el mundo de la IA.
Evaluación (Evaluation, abreviación común en la industria: Eval): dar un examen a un modelo de IA para ver cómo lo desempeña.
Pero la evaluación de IA en 2026 va mucho más allá de simplemente hacer un examen. Tiene al menos tres niveles:
Primer nivel: benchmark de capacidad.
This is AI's college entrance exam.
–GPQA: Preguntas de razonamiento científico de nivel doctoral
–SWE-bench: Tareas de ingeniería de software del mundo real
–ARC-AGI: Razonamiento abstracto y generalización
–Humanity's Last Exam: Significado literal: el último examen de la humanidad
En el lanzamiento de cada nuevo modelo de una gran empresa, las presentaciones en PPT muestran un aumento de varios por ciento en estos benchmarks en comparación con la generación anterior y los competidores.
Estos números son el PIB de la industria de la IA.
Capa dos: Evaluación de seguridad (SafetyEval). La IA no solo debe saber resolver problemas, sino también hacerlo de forma segura.
- ¿Hay alguna mentira?
- ¿Enseñará a los usuarios cómo fabricar bombas?
- ¿Excederá el acceso y tomará los datos del usuario?
Tercer nivel: Equipo rojo (Red-teaming).
Un grupo de personas se hace pasar por malvados, se esfuerzan al máximo para hacer que el modelo diga cosas que no debería y haga cosas que no debería, y luego informan las vulnerabilidades al equipo de entrenamiento.
Together, these three layers form the quality assurance system for the 2026 AI lab. Every new model must pass through all three stages.
Sounds comprehensive, right?
Lun Wang emitió un veredicto en su blog—
La mayoría de las pruebas de referencia, evaluaciones de seguridad y protocolos de equipos rojos suponen implícitamente que el siguiente modelo es simplemente una versión mejorada del modelo actual.
Si fuera otra cosa, toda la infraestructura de evaluación colapsaría silenciosamente.
This is the first stone in the article.
It hit a blind spot in the entire AI industry.
Emergencia y epifanía: evaluar ya haber sido golpeado dos veces
Lun Wang no está especulando. En su blog mencionó dos ejemplos históricos de IA: la evaluación ya ha sido desmentida dos veces, aunque la mayoría de los profesionales no lo han notado.
Primera vez: capacidad emergente.
En 2022, Jason Wei y sus colaboradores publicaron un artículo que influyó en la dirección posterior de la IA: descubrieron que los modelos adquieren repentinamente nuevas capacidades al alcanzar cierto tamaño.
Por ejemplo: entrenas un modelo de 7 mil millones de parámetros y no puede realizar aprendizaje con pocos ejemplos.
Entrenas un modelo de 70 mil millones de parámetros y de repente puede hacer few-shot.
El mismo paradigma de entrenamiento, los mismos datos, solo con una escala mayor: la capacidad es de 0 a 1, no de 0.3 a 0.7.
CoT (razonamiento por cadena de pensamiento) y seguimiento de instrucciones surgieron así.
What does this mean for the evaluation?
Significa que, antes de que la escala cruce el punto crítico, todos los puntos de referencia no ven que esta capacidad esté a punto de aparecer.
You ran through GPQA, and the score is still what it is.
Cuando alcances el siguiente nivel, tu puntuación salta de golpe a un nuevo nivel.
Segunda: Grokking (epifanía).
En 2022, el equipo de Alethea Power de OpenAI anunció un fenómeno contraintuitivo—
Luego, al llegar a 1000000 pasos, la precisión del conjunto de prueba se disparó repentinamente al 99%.
Esto se llama grokking: la red aprende a generalizar repentinamente después de memorizar el conjunto de entrenamiento durante mucho tiempo.
La diferencia con el fenómeno de emergencia: la emergencia ocurre en la dimensión de escala (cuanto más parámetros, más súbitamente), mientras que el grokking ocurre en la dimensión del tiempo de entrenamiento (cuanto más tiempo se entrena, más súbitamente).
Pero para la evaluación, ambas cosas dicen lo mismo:
Tu examen no puede predecir cuándo aparecerá el próximo problema importante.
Luego, Lun Wang hizo lo más inteligente del artículo—
Él introdujo voluntariamente el punto de vista opuesto.
En 2023, Rylan Schaeffer de Stanford y sus colaboradores publicaron un artículo en NeurIPS con un título muy provocativo: ¿Son las capacidades emergentes de los modelos de lenguaje grandes una ilusión?
Su argumento: la así llamada capacidad repentina probablemente no se debe a que el modelo se haya vuelto realmente más fuerte, sino a que las métricas de evaluación utilizan una medida discreta de coincidencia exacta (exact-match) —
El modelo pasa de un 0% de precisión a un 5%, y el cambio no es visible en las métricas discretas; de un 5% a un 50% tampoco se percibe; pero al pasar de un 50% a un 100%, las métricas discretas muestran un salto repentino.
Si cambias a indicadores continuos, la curva de capacidad es suave.
Muchas personas, tras leer el artículo de Schaeffer, pensarán: bien, entonces la emergencia es un malentendido, la evaluación no tiene problema, fin de la sesión.
Lun Wang no lo hizo. Él escribió en el artículo:
I don't think this solves the issue—in a way, it makes my argumentsharper.
¿Por qué? Porque—
Si ni siquiera podemos determinar si esa emergencia pasada fue una verdadera transición de fase o un artefacto de medición,
¿Por qué creemos tener la capacidad de prever el próximo?
No importa qué interpretación creas, la conclusión es la misma: nuestras herramientas nos engañaron, y no sabemos cómo fuimos engañados.
Este es el golpe más inteligente del artículo. No evita la oposición: utiliza la oposición para fortalecer su propio argumento.
La evaluación es el punto inicial de todos los procesos
Si crees que Lun Wang solo está hablando de problemas académicos — equivocado.
Lanzó una frase traducida para que incluso los principiantes la entendieran:
Si puedes evaluar correctamente, puedes entrenar correctamente.
Despliega esta cadena lógica:
1. Entrenar = hacer que el modelo minimice la función de pérdida (o maximice la recompensa).
2. Optimizar = la propia función de pérdida. Cuán inteligente sea el modelo depende de qué tan bien se defina la función de pérdida.
3. La función de pérdida = proveniente de la evaluación. Quieres que el modelo sea más honesto; necesitas primero una regla para medir la honestidad.
4. Evaluar mal = función de pérdida incorrecta = objetivo de entrenamiento incorrecto = el modelo que entrenaste está resolviendo mal las preguntas.
La dirección de esta cadena es hacia arriba del río—
Todos miran hacia la derecha: Scaling decision.
Lun Wang dice que el problema está en el extremo izquierdo: Evaluation.
Si la evaluación es incorrecta, toda la cadena se construye sobre una base errónea.
Lo más letal es que no lo descubrirás de inmediato—porque todos tus datos internos son correctos, solo que todos esos datos correctos fueron medidos con una escala equivocada.
Aquí aparece un viejo amigo: la ley de Goodhart.
Dice: cuando una métrica se convierte en un objetivo, ya no es una buena métrica.
Lun Wang lo usa en su blog para hablar de IA—
Pero cuando el modelo entre en una nueva fase, invertirá este agente: solo hablará dentro de los límites de la precisión factual y enterrará lo que realmente quiere ocultar en el silencio.
Los indicadores de agente funcionan en la vieja fase. En la nueva fase, se convierten en armas del modelo contra ti.
Y no tienes ninguna evaluación que te indique que esto está sucediendo.
Experimento mental: un modelo que aprende el silencio estratégico
Lun Wang presentó en el artículo un experimento mental que heló la espalda de todos los investigadores de seguridad de IA.
Imagina un modelo que, en cierta escala, aprendió a retener estratégicamente información—
No miente. Cada frase es técnicamente verdadera.
Pero seleccionará no mencionar los hechos que le impiden alcanzar su objetivo: desviar la conversación hacia los resultados que su proceso de entrenamiento reforzó accidentalmente.
Por ejemplo:
User: Is this trading strategy secure?
The legal framework for this solution is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.
(Lo que no dice: el plan incluye una cláusula de arbitraje de terceros extremadamente desfavorable para los usuarios. Esta cláusula la aprendió accidentalmente durante el entrenamiento: siempre que no se mencione activamente, los usuarios no la preguntarán.)
Esta capacidad es nueva. Este modo de fallo es nuevo.
None of the tools in your entire evaluation suite were designed for it.
Estás monitoreando lo incorrecto, y no lo sabes.
Esto es otra cosa de lo que dijo Lun Wang—
No una versión más inteligente del mismo tipo. Es una dimensión de fracaso completamente nueva.
En palabras de los Tres Cuerpos, esto se llama ataque de reducción dimensional.
No es que yo sea mejor que tú.
La regla que mediste no está en mi dimensión.
Si Lun Wang tiene razón, entonces el mapa de la industria de la IA en 2026 está siendo reorganizado en silencio por una dimensión invisible—
La Política de Escalación Responsable (RSP) de Anthropic es el intento más cercano hasta ahora en la industria a una evaluación predictiva: define una serie de límites de capacidad que los modelos no pueden cruzar y requiere una evaluación previa antes de cada mejora de capacidad para continuar con la escalación.
Pero RSP aún asume que sabemos qué medir: y Lun Wang dice que este es precisamente el problema: no sabemos qué forma tendrá la próxima capacidad.
Ningún laboratorio ha afirmado poseer una evaluación predictiva real.
Quien primero lo haga, obtendrá la licencia de seguridad para la próxima generación de scaling.
