Les utilisateurs ont inconsciemment formé l'IA de Google pendant 15 ans via CAPTCHA

iconBlockbeats
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Les actualités sur l’IA et la crypto révèlent que reCAPTCHA, le système CAPTCHA populaire, forme l’IA de Google depuis plus de 15 ans. Les utilisateurs ont étiqueté des données pour Google Maps et Waymo en accomplissant des défis CAPTCHA. À son apogée, le système a recueilli 200 millions de secondes de travail humain par jour — 500 000 heures — sans rémunération. Les données sur l’inflation et les avancées en IA continuent de façonner le paysage technologique et crypto.
Vous entraînez l'IA de Google depuis 15 ans. Vous ne le saviez pas.
Auteur original : Sharbel, cofondateur d'Unfungible
Lila, BlockBeats


Éditeur : Le CAPTCHA, ce sont les chiffres ou motifs que vous devez cliquer à chaque connexion à un site web, familiers à chaque utilisateur d'Internet. Mais chaque fois que vous cliquez sur « Je ne suis pas un robot », vous croyez simplement vérifier votre identité, alors qu'en réalité, vous participez à la plus grande et la plus secrète production de données au monde. Le reCAPTCHA lancé par Luis von Ahn a regroupé des comportements humains épars pour former la base de données soutenant des activités essentielles telles que Google et sa filiale d'automobile autonome Waymo.


Sous le masque de « gratuit » et de « sécurisé », Internet redéfinit discrètement une toute nouvelle relation de travail : vous passez du temps à prouver que vous êtes humain, tout en contribuant à l'entraînement de l'IA, mais une fois que l'IA apprend, ce travail est entièrement remplacé. Cet article, publié il y a moins de 20 heures, a déjà recueilli plus de 9,5 millions de vues sur Twitter. Voici le contenu original :


Environ 500 000 heures de travail humain sont utilisées gratuitement par Google chaque jour. Et ces personnes ne font que vouloir se connecter à leur banque en ligne.


reCAPTCHA est l'opération de collecte de données la plus réussie de l'histoire d'Internet. À son apogée, 200 millions de personnes effectuaient des vérifications chaque jour. Mais presque personne ne réalise ce que signifie chaque clic.


La société de voitures autonomes de Google, Waymo, a une capitalisation boursière de 45 milliards de dollars aujourd'hui. La majeure partie de ses données d'entraînement essentielles ont été fournies gratuitement par vous lors de votre navigation sur divers sites web.


Voici l'histoire complète :


Origine : une idée intelligente


En 2000, les robots de spam détruisaient l'Internet. Les forums étaient inondés, les boîtes de réception débordaient, et les sites web avaient urgentement besoin d'une méthode pour distinguer les humains des machines.


Le professeur Luis von Ahn de l'Université Carnegie Mellon a résolu ce problème. Il a inventé le CAPTCHA : un texte déformé que seuls les humains peuvent lire, que les robots ne peuvent pas résoudre.


Mais von Ahn a vu bien plus que cela. Des millions de personnes dépensent de l'énergie dans ces défis. Et si cette énergie pouvait accomplir deux choses à la fois ?


En 2007, il a lancé reCAPTCHA. Son génie réside dans le fait qu'il ne présente plus de caractères aléatoires, mais deux mots : l'un connu du système, l'autre un mot réel extrait de livres numérisés que les ordinateurs ne parviennent pas encore à reconnaître. Votre réponse aide à la numérisation de ces livres.


Ces livres proviennent des archives du New York Times et de Google Books, jusqu'à 130 millions d'exemplaires.


Vous pensez simplement vous connecter à un site web ordinaire, mais en réalité, vous effectuez une reconnaissance optique de caractères (OCR) pour la plus grande bibliothèque numérique au monde.


En 2009, Google a acquis reCAPTCHA.



Plus tard, Google a changé la donne


L'ère des « caractères déformés » s'est terminée vers 2012.


Google fait face à un nouveau défi : les voitures de Street View ont photographié chaque route du monde, mais les photos ne sont que des données brutes. Pour que l'IA puisse agir, elle doit comprendre ce qu'elle voit : panneaux routiers, passages piétons, feux de signalisation, façades de magasins.


Google a donc redessiné reCAPTCHA v2. Au lieu de texte déformé, l'interface présente une grille d'images. « Cliquez sur toutes les cases contenant des feux de signalisation. » « Sélectionnez chaque passage piéton. » « Identifiez les boutiques. »


Ces images proviennent directement de Google Street View. Votre clic est une étiquette.


Chaque choix informe le modèle de vision par ordinateur de Google : ce groupe de pixels est un feu de circulation, cette forme est un passage piéton. Vous ne passez pas un test, vous construisez un jeu de données.



Une échelle au-delà de l'imagination


À son apogée, 200 millions de reCAPTCHA étaient résolus chaque jour. Chaque défi prenait 10 secondes, ce qui signifie que 2 milliards de secondes de travail humain étaient générées quotidiennement. Soit : 500 000 heures par jour.


Le coût de la annotation de données rémunérée s'élève à environ 10 à 50 dollars par heure. Au minimum : la valeur du travail extrait gratuitement atteint jusqu'à 5 millions de dollars par jour.


Et reCAPTCHA n'existe pas seulement dans une certaine application. Il est présent sur chaque banque, chaque portail gouvernemental, chaque site de commerce électronique. Vous n'avez pas le choix : voulez-vous vous connecter à votre compte ? D'abord, étiquetez un jeu de données. Google ne vous a jamais demandé votre avis, ne vous a jamais payé un seul centime, et ne vous a même jamais informé à ce sujet.



What has all of this created?


Ces données sont directement fournies à deux produits :


- Google Maps : l'outil de navigation le plus utilisé au monde. Sa capacité à reconnaître les panneaux routiers, les commerces et la géographie des villes est en partie due à des millions de marquages effectués par des humains lors de leur connexion au site.


-Waymo : le projet de conduite autonome de Google. Pour naviguer en toute sécurité, les véhicules autonomes doivent identifier presque parfaitement des milliers de modèles visuels.


Les données d'entraînement à vérité terrain pour ces tâches de reconnaissance ont été étiquetées par des millions de personnes sans qu'elles le sachent, via reCAPTCHA. Waymo a effectué plus de 4 millions de trajets payés en 2024, avec une évaluation à 45 milliards de dollars. Sa fondation repose sur ces « internautes bénévoles » qui ne voulaient simplement que vérifier leurs courriels.


Pourquoi personne ne peut copier ce modèle ?


L'annotation des données est extrêmement coûteuse. Des entreprises comme Scale AI, Appen et Labelbox existent pour résoudre ce problème, en embauchant des centaines de milliers de travailleurs, parfois payés moins de 1 dollar à l'heure.


La solution de Google est originale : elle a rendu l'annotation obligatoire. Sans frais, sans consentement, elle devient le « billet d'entrée » pour accéder à chaque recoin d'Internet. Résultat : des milliards d'images annotées, une couverture mondiale, des conditions météorologiques en temps réel, chaque ville du monde. Aucune entreprise d'annotation n'a pu accomplir cela. Internet lui-même est l'usine, et chaque internaute est un employé non contractuel.



Vous participez toujours


reCAPTCHA v3, lancé en 2018, n'affiche même plus de défi. Il analyse la manière dont vous déplacez la souris, votre vitesse de défilement, et le temps que vous passez sur une page. Votre empreinte comportementale lui indique si vous êtes un humain. Ces données comportementales sont également renvoyées au système d'IA de Google.


Vous n'avez jamais activement choisi de participer, il n'y a jamais eu de case à cocher à cocher. Mais à présent, sur la plupart des sites que vous visitez, vous le faites encore.


Ironie inquiétante


L'intention de Luis von Ahn était géniale : transformer l'énergie que les humains gaspillent déjà en productions utiles. Mais ce que Google a fait en exploitant cette vision est une autre affaire. Ils ont utilisé un mécanisme de sécurité que les utilisateurs étaient obligés d'utiliser, l'ont déployé sur l'ensemble du web, et ont récolté les résultats pour construire un produit commercial d'une valeur de plusieurs centaines de milliards de dollars. Les utilisateurs n'ont rien reçu, ni même été informés.


La plus profonde ironie réside dans le fait que vous avez passé des années à prouver que vous êtes humain, en effectuant des tâches de reconnaissance visuelle que l'IA ne pouvait pas encore accomplir. Dès que l'IA a appris à les réaliser, les annotations visuelles humaines ne sont plus nécessaires.


Tu as prouvé que tu étais humain, mais cela t'a rendu remplaçable.


Lien original


Cliquez pour en savoir plus sur les postes vacants chez BlockBeats


Rejoignez la communauté officielle de律动 BlockBeats :

Groupe Telegram abonné : https://t.me/theblockbeats

Groupe Telegram : https://t.me/BlockBeats_App

Compte officiel Twitter : https://twitter.com/BlockBeatsAsia

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.