Des milliers de personnes dans le monde vendent leurs données personnelles pour l'entraînement de l'IA malgré les risques pour la vie privée

Auteur : The Guardian

Traduction : Deep潮 TechFlow

Lecture approfondie de Shenchao : Ce reportage d'enquête révèle une industrie grise en croissance rapide : des milliers de personnes à travers le monde gagnent de l'argent en vendant leur voix, leur visage, leurs historiques d'appels et leurs vidéos quotidiennes pour l'entraînement de l'IA.

Ce n'est pas une discussion générale sur la vie privée, mais une enquête portant sur des personnes réelles, des montants réels et des conséquences réelles — un acteur qui a vendu son visage, puis l'a vu sur Instagram en train de promouvoir un produit médical inconnu, avec des commentaires évaluant son "apparence".

Lorsque la soif de données des entreprises d'IA rencontre les écarts économiques mondiaux, elle crée une transaction inégale.

Le texte complet est le suivant :

Un matin de l’année dernière, Jacobus Louw, résidant au Cap en Afrique du Sud, est sorti se promener comme d’habitude, en nourrissant les mouettes sur son passage. Mais cette fois-ci, il a enregistré plusieurs vidéos — montrant ses pas et son champ de vision en marchant sur le trottoir. Cette vidéo lui a rapporté 14 dollars américains, soit environ dix fois le salaire minimum du pays et l’équivalent de la moitié des dépenses alimentaires de ce jeune homme de 27 ans pendant une semaine.

Ceci est une tâche de « navigation urbaine » accomplie par Louw sur Kled AI. Kled AI est une application qui rémunère les utilisateurs pour télécharger des photos, vidéos et autres données utilisées pour entraîner des modèles d'IA. En quelques semaines à peine, Louw a gagné 50 dollars en téléchargeant des photos et vidéos de sa vie quotidienne.

À des milliers de kilomètres de là, à Ranchi, en Inde, l'étudiant de 22 ans Sahil Tigga gagne régulièrement de l'argent avec Silencio — une application qui collecte des données audio via le microphone de son téléphone pour entraîner l'IA, en enregistrant des bruits ambiants tels que ceux d'un restaurant ou d'une intersection animée. Il télécharge également ses propres enregistrements vocaux. Sahil se déplace spécifiquement vers des scènes uniques, comme les halls d'hôtel non encore répertoriés sur la carte de Silencio. Il gagne ainsi plus de 100 dollars par mois, suffisants pour couvrir tous ses frais alimentaires.

À Chicago, Ramelio Hill, un apprenti soudeur de 18 ans, a vendu ses conversations privées sur téléphone portable avec ses amis et sa famille à Neon Mobile — une plateforme d’entraînement d’IA conversationnelle qui paie 0,50 dollar par minute — et a gagné plusieurs centaines de dollars. Pour Hill, le calcul est simple : il estime que les entreprises technologiques possèdent déjà une grande quantité de ses données personnelles, alors autant qu’il en tire lui aussi un bénéfice.

Ces « micro-tâches d’entraînement d’IA » — télécharger des scènes environnantes, des photos personnelles, des vidéos et des fichiers audio — se trouvent en première ligne d’une nouvelle ruée vers les données mondiales. Alors que la Silicon Valley cherche désespérément des données humaines de haute qualité au-delà de ce qui peut être extrait de l’Internet ouvert, une industrie de marché des données en plein essor émerge pour combler ce fossé. De Cap Town à Chicago, des milliers de personnes accordent micro-autorisations de leurs identités biométriques et données privées à la prochaine génération d’IA.

Mais cette nouvelle économie de petits boulots comporte un prix. Derrière quelques dollars gagnés, ces travailleurs alimentent une industrie qui pourrait finir par rendre leurs compétences obsolètes, tout en s'exposant à des risques futurs de deepfakes, de vol d'identité et d'exploitation numérique — dont ils commencent à peine à prendre conscience.

Faites tourner les engrenages de l'IA en continu

Les modèles de langage IA tels que ChatGPT et Gemini nécessitent d'immenses quantités de données d'apprentissage pour s'améliorer continuellement, mais ils font face à une pénurie de données. Les sources de données d'entraînement les plus courantes — C4, RefinedWeb et Dolma — représentent un quart des jeux de données les plus de qualité du web, et elles commencent à limiter l'utilisation de leurs données par les entreprises d'IA générative pour former leurs modèles. Les chercheurs estiment que les entreprises d'IA épuiseront les textes frais et de haute qualité disponibles au plus tôt en 2026. Bien que certains laboratoires aient commencé à entraîner leurs modèles en utilisant des données synthétiques générées par l'IA elle-même, ce processus récursif conduit à une accumulation d'erreurs dans les sorties du modèle, provoquant une dégradation progressive.

Des applications comme Kled AI et Silencio sont précisément là pour cela. Sur ces marchés de données, des millions de personnes vendent leurs données d'identité pour alimenter et entraîner l'IA. Outre Kled AI, Silencio et Neon Mobile, les entraîneurs d'IA ont de nombreux autres choix : Luel AI, soutenue par le célèbre incubateur Y-Combinator, qui acquiert des contenus de conversations multilingues à environ 0,15 dollar par minute ; ElevenLabs permet de créer une clône numérique de votre voix et de la louer à d'autres à un tarif de base de 0,02 dollar par minute.

Le professeur d'économie à King's College London, Bouke Klein Teeselink, a déclaré que les emplois temporaires pour l'entraînement de l'IA constituent une nouvelle catégorie d'emplois qui connaîtra une croissance importante.

Selon Teeselink, les entreprises d'IA savent que le paiement de frais d'autorisation de données aux personnes aide à éviter les litiges de propriété intellectuelle pouvant découler d'une dépendance exclusive à l'arrachage de contenu sur le web. Veniamin Veselovsky, chercheur en IA, affirme que ces entreprises ont également besoin de données de haute qualité pour modéliser de nouveaux comportements améliorés dans leurs systèmes. « Pour l'instant, les données humaines constituent la norme or pour l'échantillonnage en dehors de la distribution du modèle », ajoute Veselovsky.

Les humains qui font fonctionner ces machines — en particulier ceux des pays en développement — ont souvent besoin de cet argent et n’ont presque pas d’autre choix. Pour de nombreux travailleurs occasionnels de l’entraînement de l’IA, exercer ce métier constitue une réponse pragmatique aux écarts économiques. Dans les pays où le chômage est élevé et la monnaie nationale en dépréciation, gagner des dollars est souvent plus stable et plus rentable que les emplois locaux. Certains ne parviennent pas à trouver des postes d’entrée et sont contraints, pour subvenir à leurs besoins, de participer à l’entraînement de l’IA. Même dans les pays plus riches, la hausse du coût de la vie rend la vente de soi-même un choix financier logique.

Louw, un entraîneur d'IA du Cap, connaît bien les coûts en matière de confidentialité. Malgré un revenu instable et insuffisant pour couvrir tous ses frais mensuels, il accepte ces conditions pour gagner de l'argent. Souffrant depuis des années d'une maladie neurologique qui l'empêchait de trouver un emploi, il a pu économiser 500 dollars grâce à ses revenus sur le marché des données IA, y compris Kled AI, lui permettant de s'inscrire à un cours de formation spa et de devenir masseur.

« En tant qu’Afrique du Sud, recevoir des dollars vaut plus que ce que les gens imaginent », dit Louw.

Mark Graham, professeur de géographie internet à l'Université d'Oxford et auteur du livre « Feeding the Machine », reconnaît que pour les particuliers des pays en développement, cette somme peut avoir une signification concrète à court terme, mais il met en garde : « Structurellement, ce travail est instable, sans perspective d'évolution, et constitue en réalité une impasse. »

Graham ajoute que le marché des données IA repose sur une "course au bas salaire" et sur une "demande temporaire pour les données humaines". Une fois cette demande déplacée, "les travailleurs n'auront aucune protection, aucune compétence transférable et aucun filet de sécurité".

Graham a déclaré que les seuls gagnants étaient les plateformes de l'hémisphère nord, qui ont capturé toute la valeur durable.

Autorisation complète

Hill, un entraîneur d'IA de Chicago, ressent un mélange d'émotions à propos de la vente de ses appels téléphoniques privés à Neon Mobile. Les environ 11 heures d'appels lui ont rapporté 200 dollars, mais il affirme que l'application est souvent hors ligne et retarde les paiements. « Neon m'a toujours semblé louche, mais j'ai continué à l'utiliser pour gagner un peu d'argent de poche afin de payer mes factures », dit Hill.

Il commence maintenant à remettre en question si cet argent était vraiment aussi facile à obtenir. En septembre dernier, quelques semaines après son lancement, Neon Mobile a été retiré du marché après que TechCrunch ait découvert une faille de sécurité permettant à n’importe qui d’accéder aux numéros de téléphone, aux enregistrements d’appels et aux transcripts des utilisateurs. Hill affirme que Neon Mobile ne l’a jamais informé de cette situation, et il est désormais inquiet à l’idée que sa voix puisse être mal utilisée en ligne.

Jennifer King, chercheuse en vie privée des données à l’Institut d’IA centré sur l’humain de Stanford, s’inquiète du fait que le marché des données IA ne précise pas comment ni où les données des utilisateurs seront utilisées. Elle ajoute que, sans connaître leurs droits ni pouvoir négocier à ce sujet, « les consommateurs risquent de voir leurs données réutilisées d’une manière qu’ils n’aiment pas, ne comprennent pas ou n’avaient pas prévue, avec presque aucune possibilité de recours ».

Lorsque les entraîneurs d'IA partagent des données sur Neon Mobile et Kled AI, ils accordent une autorisation exclusive, mondiale, irrévocable, transférable et sans redevance, permettant à la plateforme de vendre, d'utiliser, de diffuser publiquement et de stocker leur image, ainsi que d'en créer des œuvres dérivées.

Avi Patel, fondateur de Kled AI, a déclaré que le protocole de données de son entreprise sera limité aux fins d'entraînement et de recherche en intelligence artificielle. « Tout le modèle économique repose sur la confiance des utilisateurs. Si les contributeurs pensent que leurs données pourraient être mal utilisées, la plateforme ne peut pas fonctionner », a-t-il affirmé, ajoutant que l'entreprise vérifiera les acheteurs avant la vente des jeux de données, afin d'éviter toute collaboration avec des institutions aux intentions suspectes, telles que l'industrie du porno, ainsi que des « organismes gouvernementaux » qu'ils estiment susceptibles d'utiliser les données d'une manière contraire à cette confiance.

Neon Mobile n'a pas répondu à la demande de commentaire.

Le professeur de droit à l'Université Saint-George de Londres, Enrico Bonadio, souligne que ces conditions d'utilisation permettent à la plateforme et à ses clients de « faire presque n'importe quoi avec ce matériel, de manière permanente, sans paiement supplémentaire, et les contributeurs n'ont aucun moyen réel de retirer leur consentement ou de négocier à nouveau ».

Les risques encore plus préoccupants incluent l'utilisation des données des formateurs pour créer des deepfakes et des usurpations d'identité. Bien que les marchés de données affirment supprimer les informations d'identification personnelles (telles que le nom et l'emplacement) avant la vente, les régularités biométriques sont intrinsèquement difficiles à anonymiser de manière significative, ajoute Bonadio.

Regret du vendeur

Même si les entraîneurs d'IA peuvent négocier des clauses de protection plus détaillées concernant l'utilisation des données, ils pourraient tout de même le regretter. En 2024, l'acteur new-yorkais Adam Coy a vendu son image à Captions — un logiciel d'édition vidéo par IA, désormais renommé Mirage — pour 1 000 dollars. Son accord stipule que son identité ne sera pas utilisée à des fins politiques, pour promouvoir l'alcool, le tabac ou le contenu pornographique, et que l'autorisation est valable un an.

Les légendes n'ont pas répondu à la demande de commentaire.

Peu de temps après, les amis d'Adam ont commencé à partager des vidéos qu'ils avaient trouvées en ligne, utilisant son visage et sa voix, avec des millions de vues. Dans l'une de ces vidéos Instagram, la réplique IA d'Adam se présentait comme « vaginal doctor » et promouvait des compléments médicaux non vérifiés pour les femmes enceintes et post-partum.

« C’est embarrassant pour moi d’avoir à expliquer cela à quelqu’un d’autre », a déclaré Coy.

« Le commentaire est étrange, car ils évaluent mon apparence, mais ce n’est pas moi », a ajouté Coy. « Lorsque j’ai pris la décision de vendre mon image, je pensais que la plupart des modèles collectaient déjà des données et des images en ligne, alors autant être payé. »

Coy a déclaré qu'il n'avait plus accepté aucun travail ponctuel de données AI depuis lors. Il a dit qu'il ne reconsidererait de le faire que si une entreprise lui offrait une rémunération importante.