Después de que la IA se coma todo, ¿qué queda sin entrenar?

Introducción: A medida que la capacidad de la IA continúa avanzando, el mundo de la inversión está surgiendo con un nuevo juicio pesimista: si los modelos se vuelven cada vez más potentes, todas las empresas de aplicaciones terminarán siendo absorbidas por actores como Anthropic, OpenAI y Nvidia, dejando al mercado únicamente con modelos de vanguardia, capacidad de cómputo y pocas infraestructuras. Pero Sarah Guo considera que este juicio solo tiene mitad de razón. Es cierto que esos «thin wrapper» (envolturas delgadas, es decir, aplicaciones que simplemente envuelven modelos) serán absorbidas, y cualquier tarea que pueda medirse mediante benchmark, entrenarse con datos abiertos y validarse a bajo costo también se irá comercializando progresivamente.

La verdadera pregunta es: ¿qué sigue sin poder entrenarse después de que la IA devore todo lo que se puede entrenar?

La respuesta a esta pregunta son los valores que existen dentro de organizaciones reales y que no se pueden replicar fácilmente desde el exterior: datos privados de la empresa, flujos de trabajo complejos, confianza del usuario, permisos del sistema, juicio industrial, responsabilidades de cumplimiento y la experiencia acumulada a lo largo del tiempo. Los modelos pueden ser más inteligentes, pero no pueden acceder automáticamente a los sistemas de producción de un banco; pueden generar respuestas médicas, pero no pueden obtener directamente la confianza de los médicos ni los procesos de toma de decisiones de los hospitales; pueden redactar textos legales, pero no pueden asumir la responsabilidad de abogados experimentados ni definir arbitrariamente qué constituye un trabajo legal adecuado.

Por lo tanto, las empresas de IA que realmente tendrán una ventaja competitiva en el futuro no serán simplemente las que sean más inteligentes que los modelos generales, sino aquellas que se adentren profundamente en una industria específica para realizar el difícil pero crucial trabajo de «traducción»: organizar la realidad privada, las herramientas, los procesos y los criterios de juicio de los clientes en sistemas que el modelo pueda ejecutar, y a lo largo del tiempo ir definiendo gradualmente qué constituye un «buen resultado». Cuanto más poderosa sea la IA, más se depreciarán las tareas medibles y replicables; y más se destacarán aquellos elementos «no entrenables» que llevan consigo historia, relaciones, permisos y juicio profesional. Este es el verdadero valor que aún podría sobrevivir tras la absorción por parte de los modelos.

The following is the original text:

A mediados de 2026, la versión de inversor de «locura de IA» es una sensación de desesperanza de que ya no queda nada que invertir: parece que deberíamos invertir todo nuestro dinero en Anthropic y Nvidia y luego irnos a dormir. Pero nunca he tenido esta sensación. Desde hace varios lanzamientos pequeños, he estado convencido de que los modelos ya son más inteligentes que yo; me sentiría cómodo comprando Anthropic y Nvidia al precio de mercado; mis amigos más inteligentes también están bastante seguros de que la auto-mejora de los modelos pronto se activará realmente—pero aún así, no siento esa desesperanza.

Esta desesperación no es tonta. Su lógica es la siguiente: si el modelo continúa fortaleciéndose en todo, entonces todas las empresas construidas sobre el modelo son simplemente una fina capa externa a la espera de ser absorbida por el modelo; el único valor que finalmente permanecerá será la capacidad de cómputo y los pesos del modelo más avanzado.

Tomando como ejemplo el software, este es el caso en el que más se basa esta sensación de desesperación. Cuando Devin se lanzó en 2024, solo podía resolver el 13% de las tareas en pruebas estándar de software, por lo que fue en gran medida desestimado por el mercado. Un año y medio después, los agentes más potentes ya alcanzan puntuaciones superiores al 80% y han comenzado a manejar trabajos reales dentro de Goldman Sachs y el Ejército de Estados Unidos. Casi todos llegaron a la misma conclusión errónea: el modelo se tragó la ingeniería de software.

Pero cuando el modelo asimiló la parte más fácil de medir de la ingeniería de software, también estamos reevaluando un punto que muchos equipos ya conocían: la ingeniería siempre ha resistido la medición, y la parte más fácil de medir no necesariamente es la única importante.

Mert Demirer del MIT y sus colaboradores finalmente cuantificaron esto: entre más de 100,000 desarrolladores, los agentes de codificación de última generación aumentaron la cantidad de código escrito en aproximadamente un 180%, pero la cantidad de código realmente entregado y puesto en producción aumentó solo alrededor de un 30%. Escribir código se volvió más barato, pero los demás pasos aún requieren intervención humana, y estos pasos son cruciales. Por supuesto, el impacto neto general sigue siendo asombroso.

La evaluación de rendimiento es algo que puedes medir; y cualquier cosa que puedas medir, puedes usarla para entrenar. Por eso, los agentes de codificación se desarrollaron primero: los compiladores son validadores gratuitos, y las suites de pruebas también son validadores gratuitos. Cuando la respuesta puede autoverificarse casi sin costo alguno, puedes pulir continuamente en torno a esta señal de verificación hasta perforarla.

Pero pasar la prueba nunca significa que este cambio sea correcto para una base de código que ha estado en funcionamiento durante diez años. Es posible que haya tres razones por las que existe ese módulo, ninguna de las cuales está documentada; la tubería de despliegue podría estar funcionando apenas gracias a un cron job que nadie quiere admitir que escribió.

Esta corrección no se puede leer desde la tabla de clasificación, ni siquiera se puede leer directamente de ninguna otra cosa. Solo puedes saber si un sistema tan complejo realmente funciona dejándolo funcionar en el mundo real durante suficiente tiempo. Y los modelos más inteligentes no hacen que el mundo real funcione más rápido. Nadie confiaría completamente en un sistema tan grande como Google solo porque haya completado pruebas unitarias y vea una marca de verificación verde. Confías en él porque ha soportado cargas reales durante años.

Esta corrección no es solo privada, sino también una ventaja competitiva que se desarrolla lentamente, una ventaja que el capital no puede comprimir directamente en el tiempo. Incluso los optimistas reconocen que este reloj no se puede saltar. Noam Brown, pionero en modelos de razonamiento de OpenAI, escribió recientemente: "El único método confiable para evaluar el desempeño de un agente durante un ciclo de un año es hacerlo funcionar realmente durante un año".

Como dijo Gabe Pereyra, la automatización real no se trata solo de que los modelos se vuelvan más fuertes. Se trata de que el producto, el modelo, los flujos de trabajo y la organización de la empresa cambien juntos, y de estos cuatro, tres avanzan a la velocidad de la organización.

Mover a las personas es algo que ninguna prueba de rendimiento puede alcanzar: convencer a un socio escéptico de que cambie su forma de hacer las cosas, y mantener la cohesión de un equipo durante un proceso de reconstrucción. Por eso, al contratar un CEO, valoramos su capacidad para manejar personas, al menos tanto como su capacidad analítica. Que los modelos se vuelvan más inteligentes no cambia este peso.

Aquí la retroalimentación es vaga, el período de tiempo se mide en años, y la confianza pertenece a una persona específica. Cada empresa que conozco ha permitido que cada ingeniero utilice modelos de codificación de vanguardia, pero ninguna organización de ingeniería ha cambiado a la velocidad cercana al progreso del modelo. Adoptar la herramienta solo tomó un trimestre, ¡y qué trimestre tan mágico fue el crecimiento de tokens! Pero la verdadera reconstrucción requiere años.

El trabajo que puede ser visto está abandonando el escenario. El trabajo verdaderamente valioso es, por su naturaleza, ilegible: cualquier cosa que puedas colocar en una clasificación puede ser utilizada para entrenamiento; por lo tanto, cualquier cosa medible ya está en camino hacia la mercantilización. Este proceso requiere tiempo y nunca se completará por completo, pero la dirección nunca se invertirá.

En las palabras de mi amigo Matt MacInnis de Rippling, traducido al lenguaje del dinero: un token que solo sirve para responder una pregunta general vale casi nada, porque cualquier modelo puede responderlo; pero un token que realiza razonamientos sobre los datos de tu empresa vale mucho más, porque hace exactamente lo que realmente quieres, no solo genera una respuesta que parece razonable.

El trabajo legible será absorbido desde dos direcciones.

Desde abajo, las tareas se saturan: una vez que un trabajo puede verificarse a bajo costo, los compradores ya no se preocupan por qué modelo lo realizó, sino que comienzan a preguntar cuánto cuesta. Entonces, ese trabajo termina en el modelo de código abierto o el modelo distilado más barato de la semana. Siempre que los márgenes de beneficio funcionen, finalmente lo harán.

Visto desde arriba, el laboratorio está intentando hacer que el modelo se trague su propia estructura de soporte. La enrutación entre recuperación, llamadas económicas y llamadas costosas, el uso de herramientas e incluso las estrategias de razonamiento: todos los dispositivos que antes rodeaban al modelo se están integrando dentro de sus pesos, hasta que el mismo «recubrimiento» se convierte en el modelo. Este es el límite de absorción.

La presión de beneficios también actúa desde otro ángulo: un agente general debe estar siempre preparado para manejar cualquier tarea, por lo que resulta costoso; mientras que una aplicación enfocada puede optimizar un flujo de trabajo al máximo, consumiendo solo una pequeña parte de los tokens. Además, a diferencia de los laboratorios que venden estos tokens, las empresas de aplicaciones pueden retener la diferencia intermedia.

Por lo tanto, podemos plantear dos preguntas a cualquier tipo de trabajo: ¿su corrección es privada y costosa, y es una verdad que solo existe dentro de los datos de una empresa? ¿Está aislada en un sistema al que los externos no pueden acceder? Al combinar estas preguntas con el grado de saturación de la tarea, se obtiene una matriz 2×2.

Los trabajos ya saturados y con respuestas públicas son el dominio de los tokens comercializados, y los modelos de código abierto los dominarán. Los trabajos de vanguardia pero con respuestas públicas, como las pruebas de codificación, son los que ganarán los laboratorios, porque cuando la evaluación es gratuita, poseerla en sí misma no tiene valor.

El verdadero premio es la última esquina, la esquina «no entrenable»: trabajo de vanguardia cuya validez solo existe en entornos privados. Puedes ver esto en las nubes de inferencia que sirven a los pioneros nativos de IA: la mayoría de los tokens son generados por modelos personalizados, no por modelos abiertos y generales.

La pared que lleva a este último rincón tiene alturas variables. El repositorio de código de un desarrollador es portable y estandarizado, por lo que es fácil trepar dentro. Pero el sistema de producción de un banco no es portable ni estandarizado. No obtendrás permisos de root solo porque seas un 2% más inteligente en SWE-Bench Verified.

La capacidad puede consumir muchas cosas, pero un modelo mejor no convierte los estándares privados y reales en estándares públicos. No posee licencias, no firma responsabilidades ni posee documentos de la empresa; cuando la respuesta es errónea, no puede ser demandado. El cuello de botella aquí no es la inteligencia, sino los permisos y la responsabilidad. Puedes imaginar un modelo mucho más inteligente que cualquier persona, pero aún así debe ser autorizado para entrar, y aún debe haber alguien que firme su nombre en lo que hace.

La puerta tiene una cerradura y una barra de seguridad.

La cerradura es el entorno: solo después de ganar confianza dentro de un sistema, pasar una revisión de seguridad, completar la integración y firmar un contrato con responsabilidad por los resultados, puedes verificar si la IA realmente hizo algo útil.

La cerradura es el usuario. Hoy en día, la mayoría de los médicos estadounidenses abren OpenEvidence todos los días, algo que ninguna cantidad de poder de cómputo puede comprar. Una laboratorio podría entrenar un modelo médico perfecto mañana, pero aún así no podría penetrar los hábitos de uso de los médicos ni integrarse en los procesos de toma de decisiones de UCSF. Porque la confianza se construye lentamente, a través de relaciones y del consentimiento implícito del usuario, no mediante la descenso de gradiente para borrar estas cosas.

Eso es exactamente el trabajo de las empresas de aplicaciones. Una aplicación logra ocupar un lugar en los rincones «no entrenables» gracias a trabajos que no son glamorosos: organizar la realidad privada de una empresa para que el modelo pueda actuar sobre ella; entregar herramientas de acción al modelo; y cambiar junto con los clientes la forma real en que opera su fuerza laboral.

Una empresa capaz de realizar esta «traducción» es difícil de replicar, y esta traducción nunca termina. La integración y el mantenimiento continúan junto con la relación con el cliente. Los que ganan son los equipos que colocan a ingenieros especializados en el dominio y herramientas junto al cliente.

Por ejemplo, en un bufete de abogados de primer nivel y de larga trayectoria, solo el negocio de fusiones y adquisiciones representa casi mil transacciones al año. No puedes hacer que cientos de asistentes jurídicos descarguen los archivos de los clientes en sus escritorios y los entreguen a un agente general para que los lea todos. Por razones de confidencialidad, esto ya no está permitido, sin mencionar los otros docenas de problemas. Incluso si fuera posible, solo aprenderías fragmentos: un asistente corrige un pequeño detalle a la vez, y nadie puede ver cómo fluye toda una transacción.

Las señales verdaderamente importantes existen en el nivel de la transacción. Una transacción tiene su propia forma: para fusiones y adquisiciones, son el NDA, la lista de términos, la debida diligencia, el acuerdo de compra, los documentos adjuntos y la lista de cierre; para litigios de propiedad intelectual, son las mociones, la descubrimiento de pruebas, la técnica anterior, más mociones. Cada área de negocio tiene su propia estructura, y los abogados ni las herramientas pueden intercambiarse arbitrariamente.

El problema real que esta firma legal debe resolver está en un nivel aún más alto: cómo gestionar simultáneamente cada área de negocio, como un socio principal que administra cientos de asuntos en paralelo, atrae nuevos clientes y capacita a abogados asistentes. Transformar una empresa así no es un problema único que puedas definir como una tarea de evaluación. Requiere un gestor que lo maneje como si jugara "béisbol de datos": los objetivos intermedios son extremadamente ambiguos, la retroalimentación es incompleta, los ciclos son muy largos y el entorno mismo no se mantiene estático.

Desafortunadamente, los valores ilegibles también son difíciles de vender, por la misma razón por la que son difíciles de comercializar: una empresa no puede juzgar desde el exterior si la IA realmente puede transformar sus operaciones como lo muestran los benchmarks. Por lo tanto, las empresas más fuertes dejarán de intentar demostrar su valor externamente y, en su lugar, entrarán primero en el interior del cliente y luego fijarán precios según los resultados.

Sierra solo cobra cuando su agente resuelve el problema del cliente; si el problema se transfiere a un humano, no cobra. Por lo tanto, el precio mismo se convierte en un mecanismo de evaluación. Y esto funciona porque Sierra tiene el poder de definir qué significa «resuelto». Cognition hizo lo mismo en el ámbito del software con Devin, lanzando una «garantía de rendimiento». Solo cuando se te confía el acceso interno a un sistema tienes la capacidad de ofrecer esta garantía sobre los resultados.

Incluso en el nivel de servicio de tokens —la capa que todos llaman puramente comercial— su comportamiento no es como el de un producto. Las mejores empresas nativas de IA centralizan sus servicios en uno o dos proveedores, como Baseten o Fireworks. Aunque el costo por token tiende a volverse comercial con el tiempo, la confiabilidad bajo tráfico real y el acceso estable a la capacidad de cómputo escasa no se comercializan. Elegir dónde proporcionar servicios de inferencia es una decisión distinta a elegir qué modelos utilizar. La única parte realmente comercial en la inferencia es el precio.

Un argumento común es: el laboratorio es tu proveedor, ¿por qué no usaría sus propios productos de primera parte para vender por debajo del costo y ahogarte? ¿O simplemente revocar tu acceso a la API y tomarse el mercado? Esta es la verdadera versión de esa sensación de desesperación. Pero solo es válida si la capa del modelo es un juego de un solo jugador.

Claramente, la realidad no es así. La capa del modelo es más bien una competencia mortal entre tres y medio jugadores, con un grupo adicional de jugadores internacionales que llevan unos seis meses de retraso en su entrenamiento, y una liga de desarrollo cinco veces más grande que la del año pasado. Los clientes desean competencia entre sus proveedores, y los laboratorios buscan cuota de mercado por encima de eliminar cualquier aplicación específica.

Puedes ver esto en los mercados donde se compite directamente en el laboratorio. En los escenarios de chat para consumidores, el mejor modelo nunca ha ganado simplemente todo el mercado. ChatGPT ha mantenido su liderazgo durante años de competencia real; la cuota que ahora pierde se dirige a Gemini, debido a la capacidad de distribución de Android y búsqueda, no porque el modelo sea mejor. Anthropic actualmente se considera que tiene el mejor modelo en los mercados predictivos y en el clima de internet, pero casi no es un jugador principal en el chat para consumidores, sino que ha construido su negocio en entornos empresariales y de codificación.

Si un modelo superior no puede arrebatar a los competidores a sus usuarios en la aplicación más fundamental, tampoco logrará fácilmente integrarse en el sistema de historias clínicas de un hospital o en el sistema de responsabilidades de un banco. Hoy en día, lo que el público elige en un producto va más allá de la capacidad de codificación. Si la capa de modelos de vanguardia sigue estando saturada, entonces la capa de aplicaciones sobre ella tendrá valor.

Si un trabajo no puede ser evaluado externamente, entonces alguien internamente debe decidir qué constituye una buena respuesta. Y esa decisión es el juego mismo. Suficientes decisiones de este tipo escritas se convierten en pruebas de referencia. Harvey publicó pruebas de referencia para el campo legal; Sierra publicó pruebas de referencia para agentes de voz. Tienes el derecho de definir qué significa «bueno» en un campo porque ese campo ya te está utilizando. Y estas empresas ganaron ese derecho a través de la difícil lucha del proceso de adopción real.

La evaluación que realmente determina el flujo de dinero es privada y se forma empresa por empresa: ¿qué considera esta empresa como un buen trabajo en este tipo de asuntos? Y este proceso está lejos de completarse, ya que la profundidad de la ley supera con creces cualquier prueba pública. OpenEvidence está consolidando qué respuestas clínicas son seguras.

Todo esto en realidad no es una «medición» en sentido verdadero, sino un juicio sobre qué es real y qué es bueno. Estos juicios se escriben hasta convertirse en estándares que todos los demás deben aceptar para medir. Independientemente de cuán inteligentes se vuelvan los laboratorios de modelos base, no pueden crear estos estándares de la nada, porque este estatus solo existe dentro del propio ámbito.

Esta autoridad generalmente recae en el lugar donde ya existía. Los abogados experimentados redactan los estándares legales. Los médicos definen las respuestas clínicas seguras. La empresa que ya tiene una relación con el cliente decide qué significa «resuelto».

El límite de absorción seguirá aumentando, ya que aprenderemos constantemente a medir más tareas, y lo medible será absorbido. La tierra inentrenable se reducirá bajo los pies de quienes la pisen, por lo que no puedes detenerte al encontrar una posición defensible. Debes seguir avanzando hacia aquello que aún no puede ser calificado, y reevaluar y reasegurar continuamente los riesgos.

En una tarea específica, con tus datos privados y tu propio sistema de evaluación, puedes entrenar hasta alcanzar el estado del arte y superar modelos generales en escenarios clave; este modelo especializado se convertirá en parte de tu ventaja competitiva. Por otro lado, si compites en capacidades de modelos generales, es una guerra de capital, y perderás contra quienes posean la mayor cantidad de poder de cómputo. Este es precisamente el error más común en el que caen las empresas con acceso superficial y tareas altamente legibles.

Cuando una empresa decide entrenar un modelo más allá del estado del arte en una amplia gama de tareas generales para sobrevivir, el resultado suele estar determinado por la escala de los centros de datos. El desenlace final rara vez es la aparición de un campeón independiente, sino su adquisición por parte de un jugador con suficiente poder de cómputo.

Todo lo anterior es defensa. Lo más difícil es el ataque: decidir primero qué construir realmente. Esto es lo que he estado buscando durante todo este año, y solo lo he encontrado aproximadamente tres veces. El modelo no puede ayudarte en esto. Dondequiera que lo dirijas, hará eso; pero no te puede decir qué vale la pena ser dirigido. No puedes establecer pruebas de referencia para esto, por lo tanto, no puedes entrenarlo.

Por eso es que los gigantes existentes no se llevarán todo: defenderán su territorio ya conquistado, y lo siguiente surgirá de alguien que descubra su uso antes que los demás. Quizás, la intención es una entrada más escasa que la potencia de cálculo.

Esta sensación de desesperación es mitad correcta. La capa delgada realmente está siendo absorbida, y muchas cosas que hoy parecen empresas son, de hecho, solo capas delgadas. Pero su juicio sobre «qué queda después de la absorción» es erróneo. El mecanismo es claro, pero el destino final no lo es.

Lo que estoy dispuesto a apostar es que la inteligencia seguirá volviéndose más barata, mientras que el valor seguirá desplazándose hacia áreas que pocos modelos pueden alcanzar. Lo no entrenable es aquello que lleva consigo valor histórico.

Entonces, entrar en uno de estos campos para realizar ese trabajo de traducción poco glamoroso y comenzar a escribir qué significa «bueno» allí. Porque siempre habrá alguien que lo haga. La puntuación de benchmark más citada este año es, en realidad, un mapa de títulos que pronto perderá todo su valor, y también una notificación: una notificación de que ciertas personas están a punto de perder el derecho a definir qué es lo «bueno».

[Enlace original]

BlockBeats