Has estado entrenando la IA de Google durante 15 años. No lo sabías.
Autor original: Sharbel, cofundador de Unfungible
Lila, BlockBeats
Editor's note: CAPTCHA, the numbers or images you click every time you log into a website, is something every internet user knows well. But each time you click "I'm not a robot," you think you're simply verifying your identity—when in fact, you're participating in the world's largest and most secretive data production. Luis von Ahn's reCAPTCHA has aggregated fragmented human actions into the foundational data supporting Google's core businesses, including its autonomous driving company, Waymo.
Bajo la apariencia de «gratis» y «seguro», internet ha reconfigurado silenciosamente una nueva relación laboral: gastas tiempo demostrando que eres humano, pero contribuyes al entrenamiento de la IA, y una vez que la IA aprende, este trabajo es completamente reemplazado. Este artículo, publicado hace menos de 20 horas, ya ha obtenido más de 9,5 millones de visitas en Twitter. A continuación, el contenido original:
Cada día, aproximadamente 500 mil horas de trabajo humano son utilizadas gratuitamente por Google. Y quienes aportan este trabajo solo desean iniciar sesión en su banca en línea.
reCAPTCHA es la operación de datos invisible más exitosa en la historia de Internet. En su punto máximo, 200 millones de personas completaban verificaciones diariamente. Pero casi nadie se da cuenta de lo que significa cada clic.
La empresa de automóviles autónomos de Google, Waymo, tiene actualmente un valor de mercado de 45 mil millones de dólares. La mayor parte de sus datos de entrenamiento clave los proporcionaste gratuitamente al visitar diversos sitios web.
Aquí está la historia completa:
Origen: Una idea inteligente
En el año 2000, los bots de spam estaban destruyendo internet. Los foros estaban siendo inundados, las bandejas de entrada se llenaban hasta el límite, y los sitios web necesitaban urgentemente una forma de distinguir entre humanos y máquinas.
El profesor Luis von Ahn de la Universidad Carnegie Mellon resolvió este problema. Inventó el CAPTCHA: un texto distorsionado que solo los humanos pueden leer, que los robots no pueden superar.
Pero von Ahn vio más que eso. Millones de personas gastan energía en estos desafíos. ¿Y si esa energía pudiera hacer dos cosas al mismo tiempo?
En 2007, lanzó reCAPTCHA. Su ingenio radica en que ya no muestra códigos aleatorios, sino dos palabras: una que el sistema conoce y otra que es una palabra real de libros escaneados que las computadoras aún no pueden reconocer. Tus respuestas ayudan a digitalizar estos libros.
These books come from the New York Times archive and Google Books, up to 130 million.
Pensaste que solo estabas iniciando sesión en un sitio web común, pero en realidad estás realizando OCR (reconocimiento óptico de caracteres) para la biblioteca digital más grande del mundo.
En 2009, Google adquirió reCAPTCHA.

Luego, Google cambió las reglas del juego
La era de los "caracteres distorsionados" terminó alrededor de 2012.
Google enfrenta un nuevo desafío: los vehículos de Street View han fotografiado cada calle del mundo, pero las fotos son solo datos crudos. Para que la IA pueda actuar, debe comprender lo que ve: señales de tráfico, pasos de peatones, semáforos, fachadas de tiendas.
Entonces, Google rediseñó reCAPTCHA v2. En lugar de texto distorsionado en la imagen, ahora hay una cuadrícula de fotos. «Haz clic en todos los cuadros que contienen semáforos.» «Selecciona cada cruce de peatones.» «Identifica las tiendas.»
Estas imágenes provienen directamente de Google Street View. Tu clic es la etiqueta.
Cada elección le dice al modelo de visión por computadora de Google: este conjunto de píxeles es un semáforo, esa forma es un paso de peatones. No estás superando una prueba, estás construyendo un conjunto de datos.

Escala más allá de lo imaginable
En su punto más alto, se resolvían 200 millones de reCAPTCHA diarios. Cada desafío tardaba 10 segundos, lo que significa que se generaban 2 mil millones de segundos de trabajo humano al día. Es decir: 500 mil horas diarias.
El costo de la anotación de datos remunerada oscila entre 10 y 50 dólares por hora. Según el mínimo estándar: el valor del trabajo extraído gratuitamente diariamente alcanza hasta 5 millones de dólares.
Y reCAPTCHA no solo existe en una sola aplicación. Está presente en todos los bancos, todos los portales gubernamentales y todos los sitios de comercio electrónico. No tienes opción: ¿quieres iniciar sesión en tu cuenta? Primero, etiqueta el conjunto de datos. Google nunca te preguntó tu opinión, nunca te pagó un centavo, ni siquiera te informó sobre esto.

¿Qué ha creado todo esto?
Estos datos se alimentan directamente a dos productos:
- Google Maps: la herramienta de navegación más utilizada a nivel mundial. Su capacidad para identificar señales de tráfico, tiendas y geografía urbana se debe en parte a millones de anotaciones realizadas por humanos al iniciar sesión en el sitio web.
-Waymo: el proyecto de conducción autónoma de Google. Para navegar con seguridad, los vehículos autónomos necesitan identificar casi perfectamente miles de patrones visuales.
Los datos de entrenamiento de verdad para identificar tareas fueron etiquetados por millones de personas sin saberlo a través de reCAPTCHA. Waymo completó más de 4 millones de viajes pagados en 2024, con una valoración de 45 mil millones de dólares. Su fundamento fue establecido por esos «usuarios gratuitos de internet» que solo querían revisar su correo.
¿Por qué nadie puede replicar este modelo?
La etiquetación de datos es extremadamente costosa. La existencia de empresas como Scale AI, Appen y Labelbox busca resolver este problema, contratando a cientos de miles de trabajadores, a veces con salarios inferiores a 1 dólar por hora.
La solución de Google es innovadora: convirtieron la etiquetación en obligatoria. Sin costo, sin necesidad de consentimiento, sino como «entrada» para acceder a cada rincón de Internet. El resultado: miles de millones de imágenes etiquetadas, cobertura global, clima en tiempo real, cada ciudad del mundo. Ninguna empresa de etiquetado podría lograr esto. Internet es la fábrica misma, y cada usuario es un empleado sin contrato.

Aún estás participando
reCAPTCHA v3, lanzado en 2018, ya ni siquiera muestra desafíos. Observa cómo mueves el ratón, la velocidad de desplazamiento, el tiempo de permanencia. Tu huella de comportamiento le indica si eres humano. Estos datos de comportamiento también se devuelven al sistema de IA de Google.
Nunca elegiste activamente unirte, nunca hubo una casilla de verificación para marcar. Pero ahora, en la mayoría de los sitios web que visitas, aún lo estás haciendo.
Ironico inquietante
La intención original de Luis von Ahn era genial: convertir la energía que la gente ya desperdiciaba en productos útiles. Pero lo que Google hizo con esta visión es otra historia. Aprovecharon el mecanismo de seguridad que los usuarios estaban obligados a usar, lo implementaron en toda la web y recolectaron los resultados para construir un producto comercial valorado en cientos de miles de millones de dólares. Los usuarios no obtuvieron nada, ni siquiera se dieron cuenta.
La ironía más profunda es que pasas años demostrando que eres humano, completando tareas de reconocimiento visual que la IA aún no podía realizar. Pero una vez que la IA aprende a hacerlo, ya no se necesitan anotaciones visuales humanas.
Probaste que eres humano, y el resultado fue hacerte reemplazable.
Haz clic para conocer los puestos disponibles en BlockBeats
¡Bienvenido a la comunidad oficial de律动 BlockBeats!
Grupo de suscripción de Telegram: https://t.me/theblockbeats
Grupo de Telegram: https://t.me/BlockBeats_App
Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia
