Anthropic a formé Claude Code via le projet Marlin, qui a recruté environ 1 000 ingénieurs logiciels externes par l'intermédiaire de l'entreprise de données Snorkel AI pour effectuer des tests A/B sur le code généré par le modèle, à un taux de 280 dollars par tâche.

Auteur et source de l'article : Nouvelle Intelligence

Récemment, un article a mis en lumière les « secrets de progression » de Claude Code.

Business Insider affirme qu'Anthropic dispose d'un projet dédié à l'amélioration de Claude Code, qui est affiné grâce aux retours d'environ 1 000 ingénieurs logiciels.

Ce projet, au sein de l'entreprise de données Snorkel AI, porte le code nom « Marlin ».

Déjà en janvier de cette année, Boris Cherny, responsable de Claude Code, a révélé qu'il n'avait pas écrit une seule ligne de code à la main depuis plus de deux mois, ayant soumis 22 demandes d'extraction (Pull Request) en un seul jour, et 27 la veille, toutes rédigées par le modèle.

On a également rapporté que la majeure partie du code interne d'Anthropic est générée par l'IA.

L'endroit intéressant est ici.

D’un côté, les ingénieurs internes d’Anthropic ont déjà confié une grande partie du travail de codage au modèle ; de l’autre, ils dépensent de l’argent pour embaucher environ 1000 ingénieurs externes afin d’enseigner à Claude Code ce que signifie un « bon code ».

Qu'est-ce que j'ai acheté pour 280 $ l'heure ?

Selon Business Insider, les ingénieurs externes embauchés par le projet Marlin ont tous une formation en génie logiciel. Leur travail ressemble fort à une revue de code réelle.

Le processus est à peu près le suivant. Tout d’abord, sélectionnez un dépôt GitHub parmi une liste contenant des milliers de dépôts. Ensuite, créez une demande d’intégration (PR), qui est l’étape où les développeurs soumettent des modifications de code. Enfin, rédigez un prompt pour expliquer clairement la tâche.

Le modèle générera deux jeux de code, et le travail suivant des ingénieurs externes consistera à effectuer un test A/B : comparer les deux sorties et sélectionner la meilleure.

Chaque tâche rapporte 280 dollars américains et prend environ une heure. Certaines nécessitent plusieurs rounds de révision avec l'équipe d'audit de Snorkel.

Les critères d'évaluation sont l'exactitude, la sécurité, la fiabilité et la maintenabilité du code de production.

Donnez deux exemples réels.

Dans une tâche, un ingénieur externe a demandé au modèle de restructurer la manière dont le système traite les métadonnées d'exécution, dans le but de rendre le code plus clair et plus facile à maintenir, sans modifier la fonctionnalité.

Dans une autre tâche, un ingénieur externe a effectué une correction de sécurité sur MLflow, une plateforme open source d'apprentissage automatique, pour remédier à une vulnérabilité d'injection de commandes pouvant survenir lors du téléchargement de paquets Python lors du chargement de modèles. Les exigences étaient très claires : bloquer l'injection de commandes sans affecter les options légitimes de pip (gestionnaire de paquets Python).

Les exigences de ces tâches dépassent le cadre de l'annotation de données ; il s'agit plutôt de demander à un ingénieur chevronné de transmettre directement au modèle son jugement intérieur de ce qui « s'écrit mieux ».

Il est clair qu'Anthropic n'a pas acheté du code, mais le jugement de programmeurs expérimentés sur la manière d'écrire un code plus sûr et plus propre.

Pourquoi ça doit être un ingénieur ?

Pourquoi Anthropic fait-il tant d'efforts ? Parce que Claude Code n'est plus simplement une boîte de discussion pour écrire du code.

Anthropic le définit officiellement comme un agent IA de niveau projet. Il peut lire l'ensemble de la base de code, planifier à travers plusieurs fichiers, effectuer directement des modifications, exécuter des tests, puis itérer automatiquement en fonction des résultats d'échec.

Définition de Claude Code sur le site officiel d'Anthropic : un agent capable de lire des dépôts de code, d'apporter des modifications entre fichiers, d'exécuter des tests et de livrer du code validé.

Cela signifie qu'il modifiera réellement les fichiers, exécutera des tâches et interagira avec l'ensemble du projet code.

Anthropic est également conscient de l'importance de ce sujet, et il aborde à plusieurs reprises dans son blog technique les questions de permissions, de sandbox et de fatigue d'approbation liées à Claude Code.

Par défaut, les modifications de fichiers à haut risque ou l'exécution de commandes nécessitent l'approbation de l'utilisateur ; pour réduire la fatigue d'approbation causée par les autorisations répétées, Anthropic a également introduit le sandboxing, permettant à Claude Code de s'exécuter en toute sécurité dans des limites de système de fichiers et de réseau prédéfinies.

Lorsqu'une IA peut exécuter des commandes et modifier du code en ligne, le coût des erreurs devient complètement différent. Les objectifs d'entraînement évoluent également : de « bien écrire » à « écrire de manière sûre, fiable et maintenable ».

Ces éléments ne peuvent pas être extraits à partir de corpus de code ordinaires. Ils étaient autrefois cachés dans les revues de code des ingénieurs expérimentés, transmis par expérience humaine. Maintenant, Anthropic souhaite les transformer en données commercialisables en recrutant des experts en programmation humains.

Snorkel, le « fournisseur d'armes de données » sous-évalué

Le véritable protagoniste de toute cette histoire est Snorkel.

Cette entreprise a été fondée en 2019 à partir du Stanford AI Lab et s'est concentrée sur un seul pari : ce qui détermine réellement le succès ou l'échec de l'apprentissage automatique, ce sont les données, et non les modèles ou la puissance de calcul.

Les deux fondateurs clés de Snorkel, Alex Ratner et son mentor à Stanford, Chris Ré, déclarent les sources académiques fondamentales de Snorkel.

Alex Ratner, cofondateur et PDG de Snorkel AI

En 2015, Snorkel n'était qu'un « projet d'après-midi » de Ratner pendant son doctorat : au lieu de dépenser cher pour faire annoter les données manuellement, il préférait utiliser des programmes et des règles pour la « supervision faible » (weak supervision), permettant au modèle d'apprendre sans annotation manuelle point par point.

En se basant sur cette approche, Snorkel a accumulé plus de 60 articles scientifiques, et ses outils open source ont été adoptés par Google et Intel, avant d'être officiellement séparés en entreprise en 2019.

Co-fondateur de Snorkel AI, professeur à Stanford Chris Ré

Le mentor de Ratner, Chris Ré, est aussi un personnage de premier plan.

Il est professeur à Stanford, lauréat du prix MacArthur, entrepreneur accompli, ayant participé à des projets rachetés par Apple et ayant fondé SambaNova, évaluée à 5 milliards de dollars à son apogée.

Ce qui est le plus intéressant, c'est le virage de cette entreprise.

Snorkel visait à résoudre le problème persistant de l'annotation manuelle, qui est lente, coûteuse et instable. À l'époque, environ 80 % du temps dédié au développement de l'IA était consacré à l'annotation manuelle des données ; c'est pourquoi le rêve initial de Snorkel était de libérer les humains autant que possible de cette tâche.

Mais à l'ère des modèles de pointe, ce qui est le plus rare et le plus précieux est de nouveau lié à la personne, sous la forme du goût et du jugement d'experts tels que des docteurs, des médecins, des avocats et des ingénieurs chevronnés. Cette entreprise, fondée sur la réduction de la main-d'œuvre, génère désormais ses revenus les plus élevés en constituant une armée coûteuse d'experts pour former les IA de pointe — Marlin n'est qu'une de ces missions.

Son flux de travail correspond exactement aux besoins du projet Marlin.

Le site web de Snorkel décrit ce flux de travail comme suit : définissez d'abord la tâche, les critères d'évaluation et les validateurs pour délimiter « ce qui constitue un bon résultat », puis exécutez le pipeline d'évaluation par des experts, avec une revue en plusieurs étapes par l'auteur, plusieurs évaluateurs et un décideur final, tout en conservant une traçabilité complète.

Sur le site officiel de Snorkel : après un différend lors de l'évaluation, une décision est prise et enregistrée dans le registre des modifications des critères d'évaluation ; chaque modification est traçable jusqu'à la personne, à la date et à la raison qui l'ont motivée.

Il configure également l'environnement d'évaluation et les données afin que les mêmes tâches puissent être exécutées à plusieurs reprises sur différentes versions de modèles, en produisant des scores reproductibles et comparables. Pour que ces scores soient propres et comparables, les évaluateurs ne doivent pas être influencés par la version. C'est pourquoi ces ingénieurs externes ne savent pas quelle version ils évaluent.

The quotes also speak volumes.

Snorkel propose un poste juridique public en contrat, avec chaque tâche de haute qualité rémunérée entre 10 et 100 dollars ; tandis que les tâches d’ingénierie logicielle chez Marlin sont payées 280 dollars l’unité, soit environ une heure de travail, ce qui équivaut à un salaire horaire environ deux fois et demi supérieur à la moyenne du secteur (Scale AI et Mercor paient les ingénieurs jusqu’à 110 dollars l’heure). Les experts de premier plan peuvent même gagner plus de 3 000 dollars par semaine.

Les retours de ces ingénieurs externes recrutés par Snorkel sont vraiment chers.

La liste de clients inclut Google, Mistral et Anthropic. En mai 2025, Snorkel a bouclé son tour de financement D à une évaluation de 1,3 milliard de dollars.

Kate Jensen, responsable des revenus chez Anthropic, a déclaré que pour libérer tout le potentiel de Claude, il faut introduire de nouvelles méthodes d'évaluation basées sur des experts du domaine et sur le retour des utilisateurs humains ; Anthropic continuera de collaborer avec des entreprises comme Snorkel.

Les entreprises Snorkel, Scale et Mercor étaient autrefois considérées comme des « plateformes d'annotation ». Aujourd'hui, elles constituent la chaîne d'approvisionnement invisible derrière les entreprises de modèles de pointe.

C’est une armée invisible d’experts répartis dans le monde entier qui alimente le plus intelligent des IA.

Plusieurs géants

Ils récupèrent les mêmes données

Ce n’est pas seulement Anthropic qui achète des compétences techniques réelles. Cette compétition implique plusieurs acteurs majeurs, qui adoptent simplement des stratégies différentes.

Cursor suit le chemin des données produit.

Il est officiellement indiqué : après l'activation du mode confidentialité, le code ne sera jamais utilisé par elle ou par des tiers pour l'entraînement ; seul le désactivation du mode confidentialité permettra d'utiliser les données de la bibliothèque de code, les invites, les comportements d'édition et les extraits de code pour améliorer les fonctionnalités IA et entraîner les modèles.

Le modèle Tab de Cursor produit plus de 10 milliards de caractères modifiés par jour, avec une demande augmentée d'environ 100 fois par rapport à la version initiale. Le Composer, encore plus avancé, utilise l'apprentissage par renforcement (RL) pour former le modèle à appeler des outils tels que l'édition et la recherche dans divers environnements de tâches de codage, afin de gérer des projets sur des périodes plus longues.

Composer 2.5 se concentre désormais sur les tâches à long terme nécessitant des centaines d'étapes.

Elon Musk utilise une méthode d'obligation de capital / d'option d'acquisition.

En février de cette année, xAI a été intégré à SpaceX. À la fin avril, SpaceX a obtenu le droit d'acquérir pour 60 milliards de dollars la société mère de Cursor, Anysphere, cette année, ou de verser 10 milliards de dollars au départ pour établir un partenariat approfondi. Ce qui intéresse Musk, c'est précisément les données d'activité des développeurs réels les plus actives au monde détenues par Cursor.

Le 25 mai, Musk a annoncé sur X que l'entraînement du nouveau modèle de base Grok V9-Medium était terminé, avec 1,5 trillion de paramètres, soit trois fois plus que le modèle actuel en production. Il a spécifiquement souligné que ce résultat était obtenu avant d'ajouter les données Cursor pour un réentraînement, et que « les capacités de programmation seraient beaucoup plus fortes » après cette étape. Le modèle devrait être publié mi-juin.

Ainsi, V9 sera le premier Grok à avoir systématiquement « consommé » des données comportementales réelles de développeurs.

OpenAI a ensuite suivi cette voie avec Codex. Codex, publié en 2025, est piloté par codex-1 ; OpenAI affirme qu'il a été formé par apprentissage par renforcement sur des tâches de codage réelles, dans le but d'écrire du code proche du style humain, conforme aux pratiques des PR, et capable de relancer les tests répétitivement jusqu'à leur réussite ; chaque tâche s'exécute dans un sandbox isolé préinstallé avec votre dépôt de code.

Codex est désormais une plateforme de codage agente d'OpenAI, alimentée par ses modèles de codage de pointe ; plus de 5 millions d'utilisateurs par semaine.

Ce qu'ils disputent, c'est en réalité la même chose : les données de processus, simplement avec des chemins différents.

Anthropic a d'abord des modèles, mais manque de retours provenant de véritables environnements de développement ; elle a donc dépensé de l'argent pour engager environ 1 000 ingénieurs afin de décomposer le processus d'ingénierie logicielle en données apprenables ;

Cursor dispose déjà de produits et de comportements d'utilisateurs réels, ainsi que de modèles de programmation internes tels que Tab et Composer. Toutefois, par rapport à OpenAI et Anthropic, il lui manque davantage une base de modèles fondamentaux universels et une puissance de calcul à grande échelle pour l'entraînement ;

Ce qui manque aussi à Musk, c'est des données ; il tente donc d'acheter pour quelques dizaines de milliards de dollars un point d'entrée produisant continuellement des données sur le comportement des développeurs ;

Avec des modèles et des produits OpenAI en abondance, il a créé lui-même un environnement d'essai pour permettre au modèle d'apprendre par renforcement, en effectuant des essais, des tests, des corrections et des itérations répétées sur des tâches de codage réelles.

Plusieurs approches différentes, mais un objectif commun : utiliser des données de plus en plus proches des sites de production réels pour former leurs modèles d'IA pour la programmation.

Véritable fossé protecteur

Le goût et le jugement des gens

Un article intitulé SWE-chat a effectué pour la première fois une collecte à grande échelle de conversations réelles d'agents : 6 000 séances, plus de 63 000 invites d'utilisateurs et 355 000 appels d'outils.

Il en ressort un chiffre douloureux : seulement 44 % du code généré par les agents ont fini par être intégrés dans les soumissions des utilisateurs. Plus de la moitié ont été supprimés, modifiés ou rejetés.

SWE-chat en pratique : le vibe coding représente 41 % des conversations, mais seulement 44 % du code généré par l'agent sont finalement soumis ; les utilisateurs corrigent, signalent des erreurs ou interrompent lors de 44 % des cycles d'interaction pour remettre en question les sorties du modèle.

Cela indique que les anciens benchmarks comme HumanEval sont désormais saturés, et il n'a plus beaucoup de sens de se concentrer uniquement sur les scores. Le véritable champ de bataille réside dans les données issues des processus de développement réels, caractérisés par des itérations, des essais-erreurs et des révisions.

Plus le modèle est puissant, plus il faut dépenser pour acheter la partie que les humains n'ont pas encore été remplacés : l'intuition ingénierie.

Anthropic paie 280 $ par tâche et engage environ 1 000 ingénieurs pour des votes A/B : ce travail apparemment lourd est précisément ce qu'ils achètent.

Celui qui peut transformer les données du site de chantier en données que le modèle peut consommer détient la clé d'entrée pour la prochaine étape de la programmation AI.

Anthropic recrute 1 000 ingénieurs à 280 $ par tâche pour améliorer le code de Claude

Qu'est-ce que j'ai acheté pour 280 $ l'heure ?

Pourquoi ça doit être un ingénieur ?

Snorkel, le « fournisseur d'armes de données » sous-évalué