Anthropic entrenó a Claude Code a través del proyecto Marlin, reclutando a aproximadamente 1000 ingenieros de software externos a través de la empresa de datos Snorkel AI para realizar pruebas A/B sobre el código generado por el modelo, con una recompensa de 280 dólares por tarea.

Autor y fuente del artículo: Nuevos智元

Recientemente, un artículo puso en evidencia los «secretos del progreso» de Claude Code.

Business Insider dice que Anthropic tiene un proyecto dedicado a mejorar Claude Code, que se está afinando con el feedback de aproximadamente 1.000 ingenieros de software.

Este proyecto, dentro de la empresa de datos Snorkel AI, tiene el código «Marlin».

Ya en enero de este año, Boris Cherny, responsable de Claude Code, reveló que llevaba más de dos meses sin escribir una sola línea de código a mano, y que un día el Claude envió 22 solicitudes de extracción (Pull Request), y al día anterior envió 27, todas escritas por el modelo.

También se ha informado que gran parte del código interno de Anthropic fue generado por IA.

Lo interesante está aquí.

Por un lado, los ingenieros principales de Anthropic ya han delegado gran parte del trabajo de codificación al modelo; por otro, está gastando dinero contratando a aproximadamente 1000 ingenieros externos para enseñarle a Claude Code, paso a paso, qué es lo que constituye un «buen código».

¿Qué es lo que compré por 280 dólares por hora?

Según Business Insider, los ingenieros externos contratados por el proyecto Marlin tienen antecedentes en ingeniería de software. Su trabajo suena como una revisión de código real.

El proceso es aproximadamente así. Primero, selecciona un repositorio de GitHub de una lista que contiene miles de repositorios. Luego, crea un PR, es decir, el paso en el que los desarrolladores envían modificaciones de código. A continuación, escribe una instrucción que explique claramente la tarea.

El modelo generará dos conjuntos de código, y lo que los ingenieros externos harán a continuación es realizar una prueba A/B: comparar ambos resultados y seleccionar el mejor.

Cada tarea paga 280 dólares y lleva aproximadamente una hora. Algunas requieren varias rondas de revisión con el equipo de Snorkel.

Los criterios de evaluación son la corrección, seguridad, confiabilidad y mantenibilidad del código de producción.

Da dos ejemplos reales.

En una tarea, un ingeniero externo pidió al modelo reestructurar la forma en que el sistema procesa los metadatos de ejecución, con el objetivo de hacer el código más claro y más fácil de mantener, sin cambiar la funcionalidad.

En otra tarea, un ingeniero externo realizó una corrección de seguridad para MLflow, una plataforma de machine learning de código abierto, abordando una vulnerabilidad de inyección de comandos que podría ocurrir al cargar modelos y descargar paquetes de Python. Los requisitos eran muy claros: bloquear la inyección de comandos sin afectar las opciones legítimas de pip (el administrador de paquetes de Python).

Los requisitos de estas tareas van más allá del ámbito de la anotación de datos, y más bien parecen exigir que un ingeniero experimentado copie tal cual al modelo su conjunto interno de juicios sobre «cómo escribirlo mejor».

Claramente, Anthropic no compró código, sino el juicio de programadores experimentados sobre cómo escribir código más seguro y más limpio.

¿Por qué tiene que ser ingeniero?

¿Por qué Anthropic se esfuerza tanto? Porque Claude Code ya no es solo un cuadro de chat para escribir código.

Anthropic lo define oficialmente como un agente de IA de nivel de proyecto. Puede leer toda la base de código, planificar entre archivos, ejecutar modificaciones directamente, ejecutar pruebas y luego iterar por sí mismo según los resultados fallidos.

La definición de Anthropic en su sitio web para Claude Code: un agente capaz de leer repositorios de código, realizar cambios entre archivos, ejecutar pruebas y entregar código comprometido.

Esto significa que realmente modificará archivos, ejecutará tareas y accederá a todo el proyecto de código.

Anthropic también es consciente de la importancia de este asunto, por lo que ha abordado repetidamente en su blog técnico los permisos, el sandbox y el agotamiento por aprobación de Claude Code.

De forma predeterminada, los cambios de archivos de alto riesgo o la ejecución de comandos requieren aprobación del usuario; para reducir la fatiga de aprobación causada por autorizaciones repetidas, Anthropic también introdujo el sandboxing, lo que permite que Claude Code se ejecute de forma más segura dentro de límites preestablecidos del sistema de archivos y la red.

Cuando una IA puede ejecutar comandos y modificar código en línea, el costo de los errores cambia por completo. Los objetivos de entrenamiento también cambian: de "escribir correctamente" a "escribir de forma segura, confiable y mantenible".

Estas cosas no se pueden generar con datos de código comunes. Anteriormente estaban ocultas en las revisiones de código de ingenieros experimentados, eran conocimientos transmitidos de persona a persona. Ahora, Anthropic quiere convertirlas en datos comprables reclutando expertos humanos en programación.

Snorkel, la subvaluada «empresa de armamento de datos»

El verdadero protagonista de todo el asunto es Snorkel.

Esta empresa salió del Stanford AI Lab en 2019 y apostó por una única dirección: lo que realmente determina el éxito o fracaso del aprendizaje automático son los datos, no los modelos ni la potencia de cálculo.

Los dos fundadores principales de Snorkel son Alex Ratner y su mentor en Stanford, Chris Ré, quienes describen las fuentes académicas fundamentales de Snorkel.

Alex Ratner, cofundador y CEO de Snorkel AI

En 2015, Snorkel era solo un "proyecto de tarde" durante el doctorado de Ratner: en lugar de gastar mucho dinero contratando personas para etiquetar datos uno por uno, se podía usar programas y reglas para hacer "supervisión débil" (weak supervision), permitiendo que el modelo aprendiera sin necesidad de etiquetado manual paso a paso.

Con esta idea, Snorkel acumuló más de 60 artículos científicos, y su herramienta de código abierto fue adoptada por Google e Intel, hasta que se separó formalmente como empresa en 2019.

Cofundador de Snorkel AI y profesor de Stanford, Chris Ré

El mentor de Ratner, Chris Ré, también es un tipo duro.

Es profesor de Stanford, ganador del Premio MacArthur "Genio", emprendedor recurrente cuyos proyectos han sido adquiridos por Apple y fundador de SambaNova, que alcanzó una valoración de hasta 5 mil millones de dólares.

Lo más interesante es el giro de la empresa.

Snorkel buscaba resolver el problema persistente de que la anotación manual es lenta, costosa e inestable; en ese entonces, aproximadamente el 80% del tiempo en el desarrollo de IA se dedicaba a la anotación manual de datos, por lo que el sueño original de Snorkel era liberar a las personas de la tarea de anotación en la mayor medida posible.

Pero en la era de los modelos de vanguardia, lo más escaso y valioso ha vuelto a ser la persona, solo que ahora se trata del criterio y el juicio de expertos como doctores, abogados e ingenieros senior. Esta empresa, que comenzó con la estrategia de «usar menos personas», ahora tiene su negocio más rentable organizando un costoso ejército de expertos para entrenar la IA de vanguardia; Marlin es solo uno de esos proyectos.

Su flujo de trabajo también coincide exactamente con las necesidades del proyecto Marlin.

El sitio web de Snorkel describe este flujo de trabajo así: primero se definen la tarea, los criterios de evaluación y los validadores, delimitando «qué es lo bueno», luego se ejecuta la línea de revisión de expertos, con autores, múltiples revisores y un árbitro final que supervisan cada etapa, dejando un registro completo en todo momento.

Indicación del sitio web de Snorkel: tras una discrepancia en la calificación de la revisión, se resuelve mediante una decisión y se registra en el historial de cambios de los criterios de evaluación; cada modificación es rastreable hasta quién, cuándo y según qué.

También configura el entorno de evaluación y los datos para que los mismos trabajos puedan ejecutarse repetidamente en diferentes versiones del modelo, obteniendo puntuaciones reproducibles y comparables. Para que las puntuaciones sean limpias y comparables, los evaluadores no deben verse influenciados por la versión. Los ingenieros externos no saben qué versión están evaluando, y esta es la razón.

The quote also speaks volumes.

Snorkel ofrece un puesto legal público con contratos; cada tarea de alta calidad paga entre 10 y 100 dólares; mientras que las tareas de ingeniería de software de Marlin pagan 280 dólares por tarea, aproximadamente una hora, lo que equivale a una tarifa horaria casi 2.5 veces superior a la de la industria (Scale AI y Mercor pagan a los ingenieros hasta 110 dólares por hora). Los expertos de élite pueden ganar más de 3000 dólares por semana.

El feedback de estos ingenieros externos contratados por Snorkel es realmente caro.

La lista de clientes incluye a Google, Mistral y Anthropic. En mayo de 2025, Snorkel completó su ronda de financiación D con una valoración de 1.300 millones de dólares.

Kate Jensen, responsable de ingresos de Anthropic, indicó que para liberar completamente el potencial de Claude, se necesitan nuevos métodos de evaluación que incorporen expertos del sector y retroalimentación humana, y que Anthropic continuará colaborando con empresas como Snorkel.

Empresas como Snorkel, Scale y Mercor antes se consideraban «plataformas de etiquetado». Ahora son la cadena de suministro invisible detrás de las empresas de modelos de vanguardia.

Es un ejército invisible de expertos distribuidos por todo el mundo que alimenta a la IA más inteligente.

Varios gigantes

Están compitiendo por los mismos datos

No solo Anthropic está comprando capacidad de ingeniería real. En esta competencia, varios jugadores importantes están participando, solo que con estrategias diferentes.

Cursor sigue el camino de los datos del producto.

Especifica oficialmente: después de que el usuario active el modo privado, el código nunca será utilizado por él ni por terceros para entrenamiento; solo al desactivar el modo privado, podría utilizarse datos de la biblioteca de código, indicaciones, acciones de edición y fragmentos de código para mejorar las funciones de IA y entrenar modelos.

El modelo Tab de Cursor genera más de mil millones de caracteres editados diariamente, con una solicitud aumentada aproximadamente 100 veces en comparación con la versión inicial. El Composer, más avanzado, entrena el modelo mediante aprendizaje por refuerzo (RL) para que aprenda a invocar herramientas como edición y búsqueda en entornos de tareas de código, gestionando tareas de ingeniería de ciclos más largos.

El Composer 2.5 más reciente se enfoca directamente en tareas de largo plazo que requieren cientos de pasos.

Musk utiliza el método de opción de compra/adsorción vinculada al capital.

En febrero de este año, xAI se integró en SpaceX. A finales de abril, SpaceX obtuvo el derecho de adquirir la empresa matriz de Cursor, Anysphere, por 60 mil millones de dólares este año, o bien pagar inicialmente 10 mil millones de dólares para establecer una colaboración profunda. Lo que atrae a Musk es precisamente los datos de comportamiento de desarrolladores reales más activos del mundo que posee Cursor.

El 25 de mayo, Musk anunció en X que el entrenamiento del nuevo modelo base Grok V9-Medium se completó, con 1.5 billones de parámetros, tres veces más que el modelo de producción actual. Él destacó específicamente que este resultado se logró antes de reentrenar con datos de Cursor, y que tras hacerlo, «la capacidad de programación será mucho mayor». El modelo se espera que se lance a mediados de junio.

De esta manera, V9 será el primer Grok en "comer" sistemáticamente datos de comportamiento de desarrolladores reales.

Posteriormente, Codex de OpenAI también siguió este camino. Codex, lanzado en 2025, está impulsado por codex-1, y OpenAI afirma que fue entrenado mediante aprendizaje por refuerzo en tareas de codificación reales, con el objetivo de escribir código que se asemeje al estilo humano y cumpla con las prácticas de PR, además de ejecutar pruebas repetidamente hasta que pasen; cada tarea se ejecuta en un sandbox aislado con tu repositorio de código preinstalado.

Codex ahora se ha actualizado a la plataforma de codificación agente de OpenAI, impulsada por sus modelos de codificación de vanguardia; los usuarios semanales superan los 5 millones.

Lo que compiten por obtener es realmente lo mismo: datos de proceso, solo que con rutas distintas.

Anthropic primero tenía el modelo, pero le faltaban comentarios de entornos reales de desarrollo, así que gastó dinero en contratar a aproximadamente 1,000 ingenieros para descomponer el proceso de ingeniería de software en datos aprendibles;

Cursor ya tiene productos y comportamientos de usuarios reales, así como modelos de programación propios como Tab y Composer. Sin embargo, en comparación con OpenAI y Anthropic, le faltan más un fundamento de modelos base generales y capacidad de cómputo para entrenamiento a gran escala;

Lo que le falta a Musk son también datos, así que intenta directamente comprar una entrada de producto que genere continuamente datos de comportamiento de desarrolladores por cientos de miles de millones de dólares;

No le faltan modelos ni productos de OpenAI, así que creó un entorno de prueba para que el modelo practique, pruebe, corrija y itere una y otra vez mediante aprendizaje por refuerzo en tareas de codificación reales.

Varias empresas adoptan enfoques diferentes, pero llegan al mismo objetivo: entrenar sus modelos de programación de IA con datos cada vez más cercanos a las condiciones reales de los sitios de ingeniería.

El verdadero foso defensivo

Es el gusto y el juicio de las personas

Un artículo titulado SWE-chat realizó la primera recopilación a gran escala de sesiones de codificación de agentes reales: 6.000 sesiones, más de 63.000 prompts de usuarios y 355.000 llamadas a herramientas.

Obtiene un número doloroso: solo el 44% del código generado por los agentes terminó siendo incluido en los envíos de los usuarios. Más de la mitad fue eliminado, modificado o rechazado.

Prueba real de SWE-chat: el vibe coding ya representa el 41 % de las conversaciones, pero solo el 44 % del código escrito por el agente termina siendo enviado; los usuarios corrigen, reportan errores o interrumpen en el 44 % de los ciclos de interacción para retroalimentar la salida del modelo.

Esto indica que los antiguos benchmarks como HumanEval ya están saturados, y solo mirar los puntajes ya no tiene mucho sentido. El verdadero campo de batalla son los datos provenientes del proceso real de desarrollo, con sus iteraciones, ensayos y errores, y rehacerlo todo desde cero.

Cuanto más potente sea el modelo, más tendrás que gastar para comprar esa parte que los humanos aún no han sido reemplazados: la intuición de ingeniería.

Anthropic paga 280 dólares por tarea; contrata a unos 1000 ingenieros para votar A/B: esta tarea aparentemente pesada es exactamente lo que están comprando.

Quien pueda convertir los datos del sitio de construcción en información que el modelo pueda procesar, tendrá la entrada para la próxima etapa de la programación con IA.

Anthropic contrata a 1,000 ingenieros a $280 por tarea para mejorar el código de Claude

¿Qué es lo que compré por 280 dólares por hora?

¿Por qué tiene que ser ingeniero?

Snorkel, la subvaluada «empresa de armamento de datos»