Milhares em todo o mundo vendem dados pessoais para treinamento de IA amid riscos à privacidade

Autor: The Guardian

Tradução: Deep潮 TechFlow

Leitura destacada da Shenchao: Esta reportagem de investigação revela uma indústria cinza em rápido crescimento: milhares de pessoas em todo o mundo ganham dinheiro com a venda de suas vozes, rostos, registros de chamadas e vídeos cotidianos para treinamento de IA.

Não é uma discussão genérica sobre privacidade, mas uma investigação com pessoas reais, valores reais e consequências reais — um ator que vendeu seu rosto e depois o viu no Instagram promovendo produtos médicos desconhecidos, com comentários avaliando sua "aparência".

Quando a sede de dados das empresas de IA se combina com as disparidades econômicas globais, está sendo criada uma troca desigual.

O texto completo é:

Numa manhã do ano passado, Jacobus Louw, que mora em Cidade do Cabo, África do Sul, saiu para sua caminhada habitual, alimentando gaivotas ao longo do caminho. Mas desta vez, ele gravou alguns vídeos — capturando seus passos e o campo de visão enquanto caminhava pela calçada. Esse vídeo lhe rendeu 14 dólares, cerca de 10 vezes o salário mínimo do país e equivalente à metade das despesas com alimentos desse jovem de 27 anos.

Este é um trabalho de "navegação urbana" concluído por Louw no Kled AI. O Kled AI é um aplicativo que paga usuários por carregar dados, como fotos e vídeos, para treinar modelos de IA. Em apenas algumas semanas, Louw ganhou 50 dólares carregando fotos e vídeos do dia a dia.

A milhares de quilômetros de distância, em Ranchi, Índia, o estudante de 22 anos Sahil Tigga ganha regularmente dinheiro com o Silencio — um aplicativo que coleta dados de áudio por meio de contribuições da comunidade para treinar IA, acessando o microfone do seu telefone para capturar ruídos ambientais, como os dentro de restaurantes ou em cruzamentos movimentados. Ele também faz upload de gravações da sua própria voz. Sahil viaja intencionalmente para cenários únicos, como saguões de hotéis ainda não registrados no mapa do Silencio. Com isso, ele ganha mais de 100 dólares por mês, suficientes para cobrir todas as suas despesas com alimentação.

Em Chicago, o aprendiz de soldagem de 18 anos, Ramelio Hill, vendeu suas conversas privadas de celular com amigos e familiares para a Neon Mobile — uma plataforma de treinamento de IA conversacional que paga US$ 0,50 por minuto — e ganhou centenas de dólares. Para Hill, a conta era simples: ele acreditava que as empresas de tecnologia já tinham acesso a uma grande quantidade de seus dados pessoais, então preferiu tirar proveito disso também.

Esses "microtrabalhos de treinamento de IA" — carregar cenas ao redor, fotos próprias, vídeos e áudios — estão na vanguarda de uma nova corrida global por dados. À medida que a sede da Silicon Valley por dados humanos de alta qualidade ultrapassa o que pode ser coletado na internet aberta, surge uma indústria de mercado de dados em expansão para preencher essa lacuna. De Cidade do Cabo a Chicago, milhares de pessoas estão microautorizando suas identidades biométricas e dados privados para a próxima geração de IA.

Mas essa nova economia de trabalhos temporários vem com um preço. Por alguns dólares, esses treinadores estão alimentando uma indústria que pode acabar tornando suas habilidades obsoletas, ao mesmo tempo em que se expõem a riscos futuros de deepfakes, roubo de identidade e exploração digital — dos quais mal começaram a tomar conhecimento.

Mantenha as engrenagens da IA em movimento

Modelos de linguagem de IA como ChatGPT e Gemini precisam de grandes quantidades de materiais de aprendizado para melhorar continuamente, mas estão enfrentando uma escassez de dados. As fontes de dados de treinamento mais utilizadas — C4, RefinedWeb e Dolma — representam um quarto dos conjuntos de dados de maior qualidade da web e agora estão restringindo o uso de seus dados por empresas de IA generativa para treinar modelos. Pesquisadores estimam que as empresas de IA esgotarão os textos novos e de alta qualidade disponíveis mais cedo em 2026. Embora alguns laboratórios já tenham começado a treinar modelos com dados sintéticos gerados por IA, esse processo recursivo leva à produção de "lixo" cheio de erros, o que pode causar falhas.

imagem

Aplicações como Kled AI e Silencio são exatamente o que está surgindo aqui. Nesses mercados de dados, milhões de pessoas estão alimentando e treinando IA vendendo seus próprios dados de identidade. Além de Kled AI, Silencio e Neon Mobile, os treinadores de IA têm muitas outras opções: Luel AI, apoiada pelo famoso acelerador Y-Combinator, que adquire materiais de diálogos multilíngues a cerca de US$ 0,15 por minuto; ElevenLabs permite que você faça uma clonagem digital da sua voz e a disponibilize para outros a uma taxa base de US$ 0,02 por minuto.

O professor de economia da King's College London, Bouke Klein Teeselink, afirmou que os trabalhos temporários para treinamento de IA são uma nova categoria de emprego que crescerá significativamente.

A empresa de IA sabe que pagar aos usuários por autorização de dados ajuda a evitar disputas de direitos autorais que podem surgir ao depender totalmente de web scraping, diz Teeselink. O pesquisador de IA Veniamin Veselovsky afirma que essas empresas também precisam de dados de alta qualidade para modelar novos comportamentos aprimorados em seus sistemas. "Por enquanto, os dados humanos são o padrão-ouro para amostragem fora da distribuição do modelo", acrescenta Veselovsky.

As pessoas que operam essas máquinas — especialmente nos países em desenvolvimento — frequentemente precisam desse dinheiro e quase não têm alternativas. Para muitos trabalhadores de microtarefas de treinamento de IA, realizar esse trabalho é uma resposta prática às disparidades econômicas. Em países com altas taxas de desemprego e moeda local desvalorizada, ganhar dólares geralmente é mais estável e lucrativo do que trabalhos locais. Alguns não conseguem encontrar empregos de nível inicial e, por necessidade de sobrevivência, acabam fazendo treinamento de IA. Mesmo em países mais ricos, o aumento do custo de vida torna vender-se um escolha financeira lógica.

O treinador de IA de Cidade do Cabo, Louw, conhece bem os custos de privacidade envolvidos. Apesar da renda instável e insuficiente para cobrir todos os seus gastos mensais, ele aceita essas condições para ganhar dinheiro. Sofrendo há anos com uma doença neurológica que o impediu de encontrar um emprego, o dinheiro que ganhou no mercado de dados de IA (incluindo a Kled AI) permitiu que ele economizasse 500 dólares para se inscrever em um curso de treinamento em spa e se tornar um massagista.

“Como sul-africano, receber dólares vale mais do que as pessoas imaginam,” disse Louw.

O professor de geografia da internet da Universidade de Oxford e autor do livro "Feeding the Machine", Mark Graham, reconhece que, para indivíduos em países em desenvolvimento, esse dinheiro pode ter significado prático a curto prazo, mas alerta que, "estruturalmente, esse trabalho é instável, sem perspectivas de crescimento, e na verdade é um beco sem saída".

Graham acrescentou que o mercado de dados de IA depende da "competição para reduzir salários" e da "demanda temporária por dados humanos". Uma vez que essa demanda se desloque, "os trabalhadores não terão nenhuma proteção, nenhuma habilidade transferível e nenhuma rede de segurança".

Graham afirmou que os únicos vencedores são "as plataformas do hemisfério norte, que se apropriaram de todo o valor duradouro".

imagem

Autorização total

O treinador de IA de Chicago, Hill, sente-se ambivalente sobre vender suas chamadas telefônicas privadas à Neon Mobile. As 11 horas de conversas lhe renderam 200 dólares, mas ele diz que o aplicativo frequentemente fica off-line e atrasa os pagamentos. "Neon sempre me pareceu suspeita, mas continuei usando apenas para ganhar um pouco de dinheiro extra para pagar minhas contas", disse Hill.

Agora ele começa a reconsiderar se esse dinheiro realmente era tão fácil assim. Em setembro do ano passado, logo após poucas semanas do lançamento, o Neon Mobile foi desativado, após o TechCrunch descobrir uma vulnerabilidade de segurança que permitia a qualquer pessoa acessar os números de telefone, gravações de chamadas e transcrições dos usuários. Hill disse que o Neon Mobile nunca o informou sobre esse problema, e agora ele está preocupado com a possibilidade de sua voz ser mal utilizada na internet.

Jennifer King, pesquisadora de privacidade de dados no Instituto de Inteligência Artificial Centrada no Ser Humano da Universidade de Stanford, expressa preocupação de que o mercado de dados de IA não deixe claro como e onde os dados dos usuários serão utilizados. Ela acrescenta que, sem compreender seus próprios direitos nem ter a oportunidade de negociar sobre isso, "os consumidores correm o risco de ter seus dados reutilizados de maneiras que não gostam, não entendem ou não esperavam, e nesse momento, quase não há recuperação possível".

Quando os treinadores de IA compartilham dados no Neon Mobile e no Kled AI, eles concedem uma autorização plena (global, exclusiva, irrevogável, transferível e isenta de royalties) que permite à plataforma vender, usar, exibir publicamente e armazenar sua imagem, além de criar obras derivadas com base nela.

Avi Patel, fundador da Kled AI, afirmou que o protocolo de dados da empresa será limitado a fins de treinamento e pesquisa de IA. "Todo o modelo de negócios depende da confiança dos usuários. Se os contribuidores acreditarem que seus dados podem ser mal utilizados, a plataforma não poderá funcionar." Ele afirmou que a empresa revisará os compradores antes de vender conjuntos de dados, evitando parcerias com instituições de "intenção suspeita", como a indústria pornô, e "agências governamentais" que possam usar os dados de maneira contrária a essa confiança.

Neon Mobile não respondeu ao pedido de comentário.

O professor de direito da City, University of London, Enrico Bonadio, apontou que esses termos do contrato permitem que a plataforma e seus clientes "façam quase qualquer coisa com esse material, de forma permanente, sem pagamentos adicionais, e os contribuidores não têm maneira real de retirar seu consentimento ou renegociar".

Riscos ainda mais preocupantes incluem: os dados dos treinadores serem usados para criar deepfakes e suplantação de identidade. Embora os mercados de dados afirmem remover informações de identificação dos dados (como nomes e localizações) antes da venda, as características biométricas são intrinsicamente difíceis de anonimizar de forma significativa, acrescentou Bonadio.

Arrependimento do vendedor

Mesmo que os treinadores de IA consigam negociar cláusulas de proteção mais detalhadas sobre o uso dos dados, ainda podem se arrepender. Em 2024, o ator de Nova York Adam Coy vendeu sua imagem por US$ 1.000 para a Captions — um software de edição de vídeo por IA, agora renomeado como Mirage. Seu contrato estipulava que sua identidade não seria usada para fins políticos, para promover álcool, tabaco ou conteúdo pornográfico, e que a autorização tinha duração de um ano.

As legendas não responderam ao pedido de comentário.

Logo depois, os amigos de Adam começaram a compartilhar vídeos que encontraram online, nos quais seu rosto e voz eram usados, acumulando milhões de visualizações. Em um desses vídeos do Instagram, a cópia de IA de Adam se apresentava como "médico da vagina", promovendo suplementos médicos não comprovados para mulheres grávidas e pós-parto.

“Explicar isso para alguém me deixou constrangido,” disse Coy.

“O comentário foi estranho, porque estavam avaliando minha aparência, mas aquilo não era eu”, acrescentou Coy. “Quando tomei a decisão (de vender minha imagem), pensei que a maioria dos modelos já coletaria dados e imagens online de qualquer maneira, então melhor ser pago.”

Coy disse que não aceitou mais nenhum trabalho temporário de dados de IA desde então. Ele disse que só consideraria fazer outro se alguma empresa oferecesse uma recompensa significativa.