Artigo de Timnit Gebru em 2020 previu riscos importantes da IA agora realizados

Se voltássemos no tempo para 2020, a maioria dos profissionais de IA discutia o quão poderosa era a GPT-3.

Naquela época, a IA generativa ainda não havia se tornado um foco global, o ChatGPT ainda não existiria por dois anos, e os grandes modelos não haviam despertado a onda de investimento global que vemos hoje. Mas nesse mesmo ano, um pesquisador sênior da Google perdeu seu emprego após um conflito intenso com a empresa por causa de um artigo ainda não publicado.

Na época, muitos acreditavam que se tratava apenas de mais uma controvérsia da Silicon Valley sobre gestão profissional, publicações acadêmicas e cultura corporativa; mas agora, olhando para trás, as pessoas perceberam que os alertas contidos no artigo se realizaram quase integralmente no mundo real.

E o pesquisador demitido é exatamente um dos mais influentes na área de ética da IA — Timnit Gebru.

Ética de IA

Um evento de demissão que abalou o mundo da IA

Em dezembro de 2020, Timnit Gebru anunciou nas redes sociais que havia sido demitida pelo Google.

A mensagem rapidamente incendiou todo o círculo de pesquisa em IA. Na época, Gebru não era apenas uma pesquisadora comum, mas também copresidente da equipe de IA ética do Google e uma das acadêmicas mais reconhecidas mundialmente em pesquisa sobre equidade em IA e viés algorítmico.

Gebru, nascida na Etiópia, tem se dedicado por muito tempo às questões de viés racial, discriminação de gênero e justiça social na IA. Antes de se juntar ao Google, ela realizou pesquisas na Universidade de Stanford. Em 2018, um estudo sobre viés algorítmico do qual ela participou foi considerado por muitos como um ponto de virada importante na pesquisa sobre equidade na IA. No mesmo ano, o Google a contratou e destacou publicamente o compromisso da empresa com a “IA Responsável (Responsible AI)”.

No entanto, apenas dois anos depois, as duas partes se separaram.

Na época, o Google afirmou publicamente que Gebru renunciou voluntariamente, mas Gebru apresentou uma versão completamente diferente: ela disse que, durante suas férias, recebeu um e-mail da empresa informando que sua demissão estava imediatamente em vigor, com todos os acessos aos sistemas internos e à caixa de correio sendo desativados simultaneamente.

Na sua opinião, foi uma demissão inegável.

Em seguida, mais de 4.000 funcionários do Google e profissionais do setor assinaram uma carta aberta questionando a abordagem da empresa e exigindo a reinserção de Gebru — tudo desencadeado por um artigo acadêmico de apenas 14 páginas.

Um artigo de 14 páginas gera controvérsia

O artigo intitulado “On the Dangers of Stochastic Parrots” (“Os Perigos dos Papagaios Estocásticos”) foi autorizado por Timnit Gebru, a professora de linguística da Universidade de Washington Emily Bender, e mais dois pesquisadores, e já foi citado mais de 14 mil vezes.

Posteriormente, o termo “papagaio aleatório” também se tornou amplamente conhecido. (Endereço do artigo: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

O artigo aponta que modelos de linguagem grandes, em essência, reproduzem padrões linguísticos com base em regularidades estatísticas: eles conseguem gerar textos fluídos, naturais e até logicamente coerentes, mas não compreendem verdadeiramente o significado da linguagem — assim como um papagaio que aprendeu a imitar a fala humana, parecendo inteligente, mas cuja imitação se baseia apenas em vastos volumes de textos da internet. E a própria internet está repleta de viéses, discriminação e conteúdo de ódio. Portanto, é altamente provável que modelos grandes aprendam esses problemas e os amplifiquem ainda mais ao gerar conteúdo.

Saiba que era 2020, quando o GPT-3 acabara de ser lançado, o ChatGPT ainda não existia e a onda dos grandes modelos estava longe de acontecer — este artigo já antecipava um dos problemas mais preocupantes da indústria hoje.

Após a submissão do artigo a uma conferência de ética em IA de primeiro nível, a gestão do Google solicitou que o artigo fosse retirado ou que os nomes dos pesquisadores do Google fossem removidos. Gebru recusou-se e pediu que a empresa especificasse as razões exatas, além de desejar um diálogo adicional entre as partes.

Ao mesmo tempo, ela enviou um e-mail de tom acalorado para um grupo interno de funcionários do Google.

No e-mail, Gebru criticou o Google pela falta de ações concretas para impulsionar a contratação de minorias e resolver questões de desigualdade interna. Ela escreveu: “Quando você começa a falar em nome de grupos vulneráveis, sua situação só piora. Você deixa os outros líderes desconfortáveis.” Ela também afirmou que, se a empresa nunca explicar por que retirou o artigo, ela optará por deixar a empresa no momento apropriado.

O desenvolvimento dos eventos superou em muito o que ela esperava. Gebru afirmou que o Google respondeu posteriormente que não atenderia às suas exigências e aceitou diretamente sua “demissão”, cancelando imediatamente todos os seus acessos.

At the time, the incident quickly became one of the most controversial topics in the global AI community.

As opiniões que pareciam radicais naquela época agora se tornaram realidade

O que realmente fez com que este evento continuasse sendo discutido até hoje não foi a demissão em si, mas o conteúdo do artigo — porque, olhando para trás hoje, quase todas as preocupações levantadas nele já se tornaram problemas reais enfrentados pela indústria de IA.

(1) Primeiro alerta: o modelo pode "inventar informações"

Em 2020, o GPT-3 acabara de ser lançado. Na época, as pessoas se maravilhavam com a capacidade do modelo de gerar texto, mas poucos discutiam seriamente sua confiabilidade.

Gebru e Bender apontam que, à medida que os modelos se tornam cada vez maiores, as pessoas se tornam cada vez mais propensas a confundir expressões fluídas com compreensão real. Os modelos parecem estar pensando, mas na verdade estão apenas prevendo a próxima palavra mais provável; portanto, eles acabarão gerando informações que parecem plausíveis, mas são completamente erradas.

Hoje, esse problema tem um nome familiar a todos: ilusão de IA (Hallucination). Seja ChatGPT, Gemini, Claude ou outros modelos avançados, o problema das ilusões ainda não foi totalmente resolvido.

Em certo sentido, o artigo já previu com precisão o fenômeno antes de ele se tornar um termo em alta na indústria.

(2) Segundo alerta: o viés não desaparecerá, mas será amplificado

O artigo também aponta que a própria internet não é uma fonte de dados neutra; os dados de treinamento contêm naturalmente diversos vieses raciais, de gênero, culturais e regionais. Os modelos não apenas aprendem esses vieses, mas também podem reforçá-los ainda mais devido aos mecanismos de otimização.

Posteriormente, várias questões práticas confirmaram essa preocupação:

A Amazon já tentou usar IA para filtrar currículos de candidatos, mas o sistema acabou reduzindo automaticamente a pontuação de currículos que continham palavras-chave como “women” (mulheres).

Foi descoberto que o sistema de avaliação de risco médico utilizado por vários grandes hospitais nos Estados Unidos subestimou sistematicamente as necessidades médicas de pacientes negros.

O Apple Card também atraiu atenção regulatória por oferecer limites de crédito significativamente mais baixos para mulheres do que para homens.

Esses casos demonstram que os algoritmos não garantem automaticamente a equidade; pelo contrário, podem solidificar desigualdades do mundo real de maneira mais sutil.

(3) Terceiro alerta: O consumo de energia da IA se tornará um novo problema

Em 2020, o custo de computação não era tão discutido como hoje, mas aquele artigo já começava a abordar o impacto ambiental do treinamento de modelos extremamente grandes. Segundo os pesquisadores, as emissões de carbono geradas pelo treinamento de um grande modelo de linguagem eram equivalentes à soma das emissões de todo o ciclo de vida de cinco carros — na época, essa afirmação era considerada excessivamente pessimista por muitos.

No entanto, à medida que a infraestrutura de base da IA entra em uma fase de corrida armamentista, problemas surgiram rapidamente: segundo dados divulgados publicamente pelo Google, as emissões de gases de efeito estufa da empresa em 2024 aumentaram 48% em comparação com 2019; a Microsoft registrou aumento de cerca de 29% no mesmo período. Ambas as empresas afirmaram explicitamente que os data centers de IA e a infraestrutura de poder computacional são importantes causas.

É um pouco irônico que essas gigantes de tecnologia estivessem há alguns anos promovendo altamente suas metas de neutralidade de carbono.

(4) Quarto alerta: ninguém sabe realmente o que há nos dados de treinamento

Para muitas pessoas, os dados de treinamento parecem ser apenas um problema de engenharia. Mas Gebru acredita que, à medida que o tamanho dos dados aumenta, realizar uma auditoria completa dos dados de treinamento se tornará quase impossível.

Sua opinião se confirmou novamente: em 2023, pesquisadores descobriram que o conjunto de dados LAION-5B, amplamente utilizado para treinar modelos de geração de imagens, continha um grande número de imagens de abuso infantil, e vários modelos principais, incluindo o Stable Diffusion, já haviam utilizado esse conjunto de dados.

Como esperado, muitos desenvolvedores não tinham conhecimento prévio da existência desses conteúdos. Ou seja, até mesmo os próprios desenvolvedores do modelo podem não entender realmente o que o modelo “ingere” — e esse é exatamente um dos primeiros problemas levantados no artigo.

(5) Quinto alerta: a internet será gradualmente ocupada por conteúdo de IA

Para o Google, esta pode ser a parte mais sensível de todo o artigo. Gebru e Bender acreditam que o desenvolvimento de grandes modelos acabará por concentrar o poder sobre a linguagem e a cultura nas mãos de pouquíssimas gigantes tecnológicas. A razão é simples: treinar modelos extremamente grandes exige quantidades massivas de capital, poder computacional e recursos de dados, e apenas um número muito limitado de empresas realmente têm capacidade para competir.

Conforme o tempo passa, a voz dominante na internet evoluirá gradualmente para: valores estatísticos médios treinados por poucas empresas, depois disseminados globalmente sob a identidade de “assistente neutro”. Ao mesmo tempo, línguas e culturas com menor representação nos dados de treinamento serão ainda mais marginalizadas.

Mais grave ainda, quando o conteúdo gerado por IA retorna à internet e se torna parte dos dados de treinamento da próxima rodada, o problema se auto-reforça continuamente — exatamente o que os pesquisadores atualmente chamam de “colapso do modelo”.

Um estudo de 2024 descobriu que cerca de 57% do novo conteúdo adicionado à internet em inglês já é gerado por IA ou auxiliado por IA; estudos sobre línguas com poucos recursos revelaram que, devido ao aumento crescente de dados de treinamento provenientes de conteúdo gerado por IA, a qualidade da tradução em algumas línguas já apresentou degradação significativa.

Em outras palavras, este artigo não apenas previu o fenômeno do "colapso do modelo", mas também identificou seu mecanismo de formação antes mesmo do conceito ser formalmente introduzido.

Após deixar o Google, ela escolheu continuar pesquisando

Após o evento ocorrer naquele ano, muitas pessoas passaram a descrever Gebru como “anti-IA”. Na verdade, não é isso: ela nunca defendeu a interrupção do desenvolvimento da IA. Desde o início, ela questionou outra coisa:

Quem está realmente decidindo o rumo da IA?

Na visão dela, pesquisadores e gestores que impulsionam o desenvolvimento de grandes modelos frequentemente possuem perfis semelhantes, atuam em prol de objetivos comerciais semelhantes e são motivados por pressões competitivas idênticas. Sob esse mecanismo de incentivo, lançar produtos mais rapidamente, expandir a base de usuários mais depressa e vencer a concorrência de forma mais ágil geralmente têm prioridade mais alta do que questões de segurança, equidade e ética.

E todos os que tentam retardar esse processo podem ser vistos como obstáculos. Ironicamente, Gebru levantou esse ponto dentro do Google, e o Google deu a esse ponto o mais dramático comentário real ao demiti-la.

Mais triste ainda é que, pouco tempo após o evento, Margaret Mitchell, outra codiretora da equipe de IA ética, também foi demitida — em apenas 90 dias, a antiga e orgulhosa equipe de IA ética do Google foi basicamente desmantelada.

Após deixar o Google, em 2021, Gebru fundou o Instituto de Pesquisa em IA Distribuída (DAIR, Distributed AI Research Institute). Diferentemente das grandes empresas de tecnologia, essa instituição busca realizar pesquisas em IA além dos interesses comerciais, com um objetivo direto: investigar questões que as gigantes de tecnologia provavelmente não estão dispostas a enfrentar. Nos últimos anos, o DAIR tem se concentrado continuamente em temas como fontes de dados, equidade algorítmica, diversidade linguística e concentração de poder na indústria de IA.

Ética de IA

À medida que a IA generativa experimenta um crescimento explosivo, cada vez mais pesquisadores também estão redirecionando sua atenção para o artigo "O Perigo dos Papagaios Aleatórios": pois descobriram que os problemas considerados exagerados na época agora se tornaram realidades discutidas diariamente na indústria.

Talvez ela simplesmente tenha visto o problema antes dos outros

Seis anos depois, sobre a controvérsia entre Timnit Gebru e o Google, o público talvez nunca obtenha uma resposta que todos concordem.

O Google considera que foi um processo normal de revisão acadêmica e demissão; Gebru acredita que foi silenciada por insistir em publicar seus resultados de pesquisa. Mas um ponto já se tornou cada vez mais difícil de negar:

O artigo que a levou a deixar o Google não perdeu seu significado com o fim da controvérsia.

Ao contrário, os problemas discutidos — ilusões, vieses, contaminação de dados, custos ambientais, colapso de modelos e concentração de poder — tornaram-se temas inevitáveis em toda a indústria de IA.

Às vezes, a história avalia de maneira inesperada.

Em 2020, muitas pessoas achavam que Timnit Gebru era muito pessimista;

Em 2026, as pessoas começaram a perceber que talvez ela apenas tenha visto o problema antes dos outros.

Link de referência: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

Este artigo é do número oficial do WeChat "CSDN", organizado por Zheng Liyuan