Você tem treinado a IA do Google há 15 anos. Você não tinha ideia.
Autor original: Sharbel, co-fundador da Unfungible
Lila, BlockBeats
Editor's note: CAPTCHA, the numbers or images you click every time you log into a website, is something every internet user is familiar with. But each time you click "I'm not a robot," you think you're simply verifying your identity—when in fact, you're participating in the world's largest and most secretive data production. Luis von Ahn's reCAPTCHA has aggregated fragmented human actions into the foundational data supporting Google and its autonomous driving company Waymo, among other core businesses.
Sob a fachada de “gratuito” e “seguro”, a internet está silenciosamente redefinindo uma nova relação de trabalho: você gasta tempo provando que é humano, mas contribui para o treinamento de IA, e assim que a IA aprender, esse trabalho é totalmente substituído. Este artigo, publicado há menos de 20 horas, já acumulou mais de 9,5 milhões de visualizações no Twitter. Abaixo está o conteúdo original:
Cerca de 500 mil horas de trabalho humano são utilizadas gratuitamente pelo Google todos os dias. E as pessoas que contribuem com isso apenas querem fazer login no banco online.
reCAPTCHA é a operação de dados invisível mais bem-sucedida da história da internet. No auge, 200 milhões de pessoas completavam verificações por dia. Mas quase ninguém percebe o que cada clique realmente significa.
A empresa de carros autônomos do Google, Waymo, tem hoje um valor de mercado de 45 bilhões de dólares. E a maior parte de seus dados de treinamento essenciais foi fornecida gratuitamente por você enquanto visitava diversos sites.
Aqui está a história completa:
Origem: Uma ideia inteligente
No ano 2000, bots de spam estavam destruindo a internet. Fóruns estavam sendo inundados, caixas de entrada estavam transbordando e os sites precisavam urgentemente de um método para distinguir humanos de máquinas.
O professor Luis von Ahn da Universidade Carnegie Mellon resolveu esse problema. Ele inventou o CAPTCHA: um texto distorcido que apenas humanos conseguem ler, que robôs não conseguem passar.
Mas von Ahn viu mais do que isso. Milhões de pessoas gastam energia nesses desafios. E se essa energia pudesse fazer duas coisas ao mesmo tempo?
Em 2007, ele lançou o reCAPTCHA. Sua genialidade está no fato de que ele não exibe códigos aleatórios, mas sim duas palavras: uma conhecida pelo sistema e outra, uma verdadeira palavra de livros digitalizados que os computadores ainda não conseguem reconhecer. Sua resposta ajudou na digitalização desses livros.
These books come from the New York Times archive and Google Books, up to 130 million.
Você acha que está apenas fazendo login em um site comum, mas na verdade está realizando OCR (reconhecimento óptico de caracteres) para a maior biblioteca digital do mundo.
Em 2009, o Google adquiriu a reCAPTCHA.

Depois, o Google mudou as regras
A era dos "caracteres distorcidos" terminou por volta de 2012.
O Google enfrenta um novo desafio: os carros de Street View fotografaram cada estrada do mundo, mas as fotos são apenas dados brutos. Para que a IA possa atuar, ela precisa entender o que vê: placas de sinalização, zonas de pedestres, semáforos e fachadas de lojas.
Então o Google redesenhou o reCAPTCHA v2. Em vez de texto distorcido na imagem, há uma grade de fotos. “Clique em todos os quadrados com semáforos.” “Selecione cada faixa de pedestres.” “Identifique as lojas.”
Essas imagens são diretamente do Google Street View. Seu clique é o rótulo.
Cada escolha está dizendo ao modelo de visão computacional do Google: este conjunto de pixels é um semáforo, aquela forma é uma faixa de pedestres. Você não está passando em um teste, você está construindo um conjunto de dados.

Escala além da imaginação
No auge, 200 milhões de reCAPTCHAs eram resolvidos por dia. Cada desafio levava 10 segundos, o que significa que gerava 2 bilhões de segundos de trabalho humano por dia. Isso equivale a: 500 mil horas por dia.
O custo da rotulagem de dados remunerada é de aproximadamente US$ 10 a US$ 50 por hora. Calculando pelo mínimo: o valor do trabalho extraído gratuitamente por dia pode chegar a US$ 5 milhões.
E o reCAPTCHA não existe apenas em um único aplicativo. Ele está presente em todos os bancos, todos os portais governamentais e todos os sites de comércio eletrônico. Você não tem escolha: quer fazer login na sua conta? Primeiro, rotule o conjunto de dados. O Google nunca perguntou sua opinião, nunca pagou um centavo de salário e nem mesmo o informou sobre isso.

O que tudo isso criou?
Esses dados são alimentados diretamente em dois produtos:
- Google Maps: a ferramenta de navegação mais utilizada mundialmente. Sua capacidade de identificar placas de estrada, lojas e geografia urbana é parcialmente atribuída a bilhões de marcações feitas por humanos ao acessar o site.
-Waymo: o projeto de carro autônomo do Google. Para navegar com segurança, os veículos autônomos precisam identificar quase perfeitamente milhares de padrões visuais.
Os dados de treinamento de verdade para esses trabalhos de reconhecimento foram rotulados por milhões de pessoas sem saber, por meio do reCAPTCHA. A Waymo completou mais de 4 milhões de viagens pagas em 2024, com uma avaliação de 45 bilhões de dólares. Sua base foi estabelecida por aqueles "cidadãos da internet não remunerados" que só queriam verificar seu e-mail.
Por que ninguém consegue replicar esse modelo?
A rotulagem de dados é extremamente cara. A existência de empresas como Scale AI, Appen e Labelbox visa resolver esse problema, contratando centenas de milhares de trabalhadores, às vezes com salários horários inferiores a 1 dólar.
A abordagem do Google é inovadora: eles tornaram a marcação obrigatória. Sem custo, sem necessidade de consentimento, mas como um "ingresso" para acessar todos os cantos da internet. O resultado: bilhões de imagens rotuladas, cobertura global, clima em tempo real, cada cidade do mundo. Nenhuma empresa de rotulagem conseguiria fazer isso. A própria internet é a fábrica, e cada internauta é um funcionário não contratado.

Você ainda está participando
O reCAPTCHA v3, lançado em 2018, nem mesmo exibe desafios. Ele observa a maneira como você move o mouse, a velocidade de rolagem e o tempo de permanência. Seu perfil de comportamento informa se você é um ser humano. Esses dados de comportamento também são retornados ao sistema de IA do Google.
Você nunca escolheu ativamente participar, nunca houve uma caixa de seleção para você marcar. Mas agora, na maioria dos sites que você visita, ainda está fazendo isso.
Ironico perturbador
A intenção original de Luis von Ahn era genial: transformar a energia que os seres humanos já desperdiçavam em produtos úteis. Mas o que o Google fez com essa visão é outra história. Eles aproveitaram o mecanismo de segurança que os usuários eram obrigados a usar, implantando-o em toda a web e colhendo os resultados para construir um produto comercial valioso em centenas de bilhões de dólares. Os usuários não obtiveram nada, nem sequer sabiam disso.
A maior ironia é que você passou anos provando que é humano, realizando tarefas de reconhecimento visual que a IA ainda não conseguia fazer. Mas assim que a IA aprendeu essas tarefas, a anotação visual humana deixou de ser necessária.
Você provou que é humano, mas acabou se tornando substituível.
Clique para saber mais sobre as vagas em aberto na BlockBeats
Bem-vindo ao grupo oficial da BlockBeats:
Grupo de assinatura do Telegram: https://t.me/theblockbeats
Grupo de Telegram: https://t.me/BlockBeats_App
Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia
