L'article de Timnit Gebru de 2020 a prédit les grands risques de l'IA désormais réalisés

Si on remontait à l'année 2020, la plupart des professionnels de l'IA discutaient encore de la puissance réelle de GPT-3.

À cette époque, l'IA générative n'était pas encore au centre de l'attention mondiale, ChatGPT n'allait pas voir le jour avant deux ans, et les grands modèles n'avaient pas encore déclenché l'engouement d'investissement actuel à l'échelle mondiale. Pourtant, cette même année, un chercheur en IA de premier plan chez Google a eu un conflit violent avec son entreprise à cause d'un article non encore publié et a fini par perdre son emploi.

À l'époque, beaucoup pensaient que cela n'était qu'une autre polémique de la Silicon Valley sur la gestion professionnelle, la publication académique et la culture d'entreprise ; mais aujourd'hui, en regardant en arrière, on réalise que les avertissements contenus dans cet article se sont presque tous réalisés dans le monde réel.

La chercheuse licenciée est l'une des figures les plus influentes dans le domaine de l'éthique de l'IA — Timnit Gebru.

Éthique de l'IA

Un événement de licenciement qui secoue le monde de l'IA

En décembre 2020, Timnit Gebru a annoncé sur les réseaux sociaux qu'elle avait été licenciée par Google.

Le message a rapidement fait le tour du monde de la recherche en IA. À l'époque, Gebru n'était pas une simple chercheuse, mais codirectrice de l'équipe IA éthique de Google et l'une des chercheuses les plus reconnues au niveau mondial dans le domaine de l'équité en IA et des biais algorithmiques.

Gebru, née en Éthiopie, s'est longtemps intéressée aux biais raciaux, à la discrimination sexiste et aux questions d'équité sociale dans l'IA. Avant de rejoindre Google, elle a effectué des recherches à l'Université de Stanford. En 2018, elle a participé à la publication d'une étude sur les biais algorithmiques, largement considérée comme un tournant majeur dans la recherche sur l'équité en IA. La même année, Google l'a recrutée et a mis en avant publiquement son engagement en faveur de l'« IA responsable ».

Cependant, seulement deux ans plus tard, les deux parties se sont séparées.

À l'époque, Google avait déclaré publiquement que Gebru avait démissionné volontairement, mais Gebru elle-même a fourni une version totalement différente : elle a affirmé avoir reçu un courriel de l'entreprise pendant son congé, l'informant que sa démission était immédiatement effective et que tous ses accès aux systèmes internes et à sa boîte mail avaient été désactivés simultanément.

Pour elle, c'était un licenciement sans équivoque.

Ensuite, plus de 4 000 employés de Google et des professionnels du secteur ont signé une lettre ouverte remettant en question la manière dont l'entreprise a géré la situation, exigeant le rétablissement de Gebru — tout cela déclenché par un article académique de seulement 14 pages.

Un article de 14 pages suscite la controverse

Cet article, intitulé « On the Dangers of Stochastic Parrots », a été écrit par Timnit Gebru, la professeure de linguistique à l’Université de Washington Emily Bender, et deux autres chercheurs, et a déjà été cité plus de 14 000 fois.

Par la suite, le terme « perroquet aléatoire » s'est également répandu. (Lien vers l'article : https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

L'article souligne que les grands modèles linguistiques reproduisent essentiellement des modèles de langage sur la base de régularités statistiques : ils sont capables de générer des textes fluides, naturels et même logiques, sans pour autant comprendre réellement le sens du langage — comme un perroquet qui a appris à imiter la parole humaine, semblant intelligent, mais dont cette imitation repose uniquement sur d'immenses quantités de textes provenant d'Internet. Or, Internet lui-même regorge de préjugés, de discrimination et de contenus haineux. Par conséquent, les grands modèles sont très susceptibles d'apprendre ces problèmes et de les amplifier lors de la génération de contenu.

Sachez que c’était en 2020, à une époque où GPT-3 venait tout juste d’être publié, ChatGPT n’existait pas encore et la vague des grands modèles était loin d’être arrivée — cet article avait déjà prédit l’un des problèmes les plus préoccupants pour l’industrie d’aujourd’hui.

Après la soumission de cet article à une conférence de premier plan sur l'éthique de l'IA, la direction de Google a exigé que l'article soit retiré ou que les noms des chercheurs de Google soient supprimés. Gebru a refusé, exigeant que l'entreprise précise les raisons exactes et souhaitant entamer un dialogue supplémentaire.

En parallèle, elle a envoyé un e-mail très ferme aux groupes internes de Google.

Dans son e-mail, Gebru a critiqué Google pour son manque d'action concrète en matière de promotion de la diversité ethnique et de résolution des inégalités internes. Elle a écrit : « Lorsque vous commencez à défendre les groupes défavorisés, votre situation ne fait que s'aggraver. Vous mettez les autres membres de la direction mal à l'aise. » Elle a également déclaré que si l'entreprise ne parvenait jamais à expliquer pourquoi l'article avait été retiré, elle quitterait l'entreprise au moment opportun.

Le déroulement des événements a dépassé de loin ses attentes. Gebru a déclaré que Google lui a ensuite répondu qu'il ne satisferait pas ses demandes et a directement accepté sa « démission », en lui retirant immédiatement tous ses accès.

At the time, the incident quickly became one of the most controversial topics in the global AI community.

Les opinions autrefois considérées comme radicales sont aujourd'hui devenues réalité

Ce qui a fait que cet événement continue d’être discuté jusqu’à aujourd’hui, ce n’est pas le licenciement en lui-même, mais le contenu de l’article scientifique — car, en y regardant de plus près aujourd’hui, presque chaque préoccupation qu’il soulevait est devenue une réalité que l’industrie de l’IA affronte actuellement.

(1) Première alerte : le modèle peut inventer des informations

En 2020, GPT-3 vient juste d'être lancé. À l'époque, les gens étaient émerveillés par la capacité du modèle à générer du texte, mais peu de personnes ont sérieusement discuté de sa fiabilité.

Gebru et Bender soulignent que, à mesure que les modèles deviennent de plus en plus grands, il devient de plus en plus facile de confondre une expression fluide avec une compréhension réelle. Les modèles ont l'air de réfléchir, mais ne font qu'anticiper le mot suivant le plus probable ; ils généreront donc inévitablement des informations qui semblent raisonnables mais sont entièrement erronées.

Aujourd'hui, ce problème porte un nom familier à tous : l'hallucination d'IA. Que ce soit ChatGPT, Gemini, Claude ou d'autres modèles avancés, le problème des hallucinations n'a pas encore été résolu de manière définitive.

D'une certaine manière, cet article a prédit avec précision le phénomène des "hallucinations" avant qu'il ne devienne un mot à la mode dans l'industrie.

(2) Deuxième alerte : les biais ne disparaîtront pas, ils seront amplifiés

L'article souligne également qu'Internet lui-même n'est pas une source de données neutre, et que les données d'entraînement contiennent naturellement diverses biais raciaux, de genre, culturels et géographiques. Le modèle non seulement apprend ces biais, mais peut également les renforcer davantage en raison de ses mécanismes d'optimisation.

Par la suite, divers problèmes pratiques ont confirmé cette préoccupation :

Amazon a tenté d'utiliser l'IA pour filtrer les candidatures, mais le système réduisait automatiquement les notes des CV contenant des mots-clés tels que « women ».

Un système d'évaluation des risques médicaux utilisé par de nombreux grands hôpitaux aux États-Unis a été découvert comme sous-estimant à long terme les besoins médicaux des patients noirs.

La carte Apple Card a également attiré l'attention des régulateurs en raison de crédits accordés aux femmes nettement inférieurs à ceux accordés aux hommes.

Ces exemples montrent que les algorithmes n'ont pas automatiquement réalisé l'équité ; au contraire, ils risquent de figer les inégalités du monde réel de manière plus subtile.

(3) Troisième alerte : La consommation d'énergie de l'IA deviendra un nouveau problème

En 2020, le coût de la puissance de calcul n'était pas encore aussi préoccupant qu'aujourd'hui, mais cet article commençait déjà à aborder les impacts environnementaux de l'entraînement de modèles extrêmement volumineux. Selon les chercheurs, les émissions de carbone générées par l'entraînement d'un modèle de langage à grande échelle équivalaient à la somme des émissions sur l'ensemble du cycle de vie de cinq voitures — une affirmation que beaucoup considéraient alors comme trop pessimiste.

Cependant, à mesure que l'infrastructure de base de l'IA entre en phase de course aux armements, des problèmes ont rapidement émergé : selon les données publiées par Google, les émissions de gaz à effet de serre de l'entreprise ont augmenté de 48 % entre 2019 et 2024 ; Microsoft a connu une augmentation d'environ 29 % sur la même période. Les deux entreprises ont clairement indiqué que les centres de données AI et l'infrastructure de calcul en sont des causes importantes.

Il est un peu ironique que ces géants technologiques aient fait la promotion de leurs objectifs de neutralité carbone il y a quelques années.

(4) Quatrième alerte : personne ne sait vraiment ce qui se trouve dans les données d'entraînement

Pour beaucoup, l'entraînement des données semble être simplement un problème d'ingénierie. Mais Gebru estime qu'avec la taille croissante des données, une audit complète des données d'entraînement deviendra presque impossible.

Son point de vue s'est à nouveau vérifié : en 2023, des chercheurs ont découvert que le jeu de données LAION-5B, largement utilisé pour former des modèles de génération d'images, contenait un grand nombre d'images d'abus sur enfants ; plusieurs modèles principaux, dont Stable Diffusion, avaient utilisé ce jeu de données.

Comme prévu, de nombreux développeurs n'étaient pas au courant de l'existence de ces contenus. Autrement dit, même les développeurs du modèle eux-mêmes ne comprennent pas nécessairement ce que le modèle « ingère » — ce qui constitue précisément l'une des premières questions soulevées dans l'article.

(5) Cinquième alerte : Internet sera progressivement envahi par du contenu généré par l'IA

Aux yeux de Google, cette partie pourrait bien être la plus sensible de tout l'article. Gebru et Bender estiment que le développement des grands modèles finira par concentrer le pouvoir linguistique et culturel entre les mains de quelques géants technologiques. La raison est simple : entraîner des modèles ultra-gros nécessite une quantité énorme de financements, de puissance de calcul et de ressources de données, et seules un très petit nombre d'entreprises sont réellement en mesure de participer à cette compétition.

Au fil du temps, la voix dominante sur Internet évoluera progressivement vers des moyennes statistiques entraînées par quelques entreprises, puis diffusées dans le monde entier sous la forme de « assistants neutres ». Dans le même temps, les langues et cultures sous-représentées dans les données d'entraînement seront encore plus marginalisées.

Plus grave encore, le problème s'autorenforce constamment lorsque les contenus générés par l'IA retournent sur Internet pour devenir les données d'entraînement de la prochaine génération — c'est exactement ce que les chercheurs appellent aujourd'hui « l'effondrement du modèle (Model Collapse) ».

Une étude de 2024 a révélé que environ 57 % du contenu nouvellement ajouté à Internet en anglais est généré par l'IA ou assisté par l'IA ; des études sur les langues à ressources limitées ont montré que, en raison du fait que les données d'entraînement proviennent de plus en plus de contenus générés par l'IA, la qualité de la traduction de certaines langues a nettement dégradé.

En d'autres termes, cet article a non seulement prédit le phénomène de « effondrement du modèle », mais a également identifié ses mécanismes de formation avant même que ce concept ne soit officiellement introduit.

Après avoir quitté Google, elle a choisi de continuer ses recherches.

Après l'événement de cette année-là, beaucoup ont ensuite décrit Gebru comme une « opposante à l'IA ». Ce n'est pas vrai ; elle n'a jamais prôné l'arrêt du développement de l'IA. Depuis le début, elle a remis en question autre chose :

Qui décide réellement de la direction du développement de l'IA ?

Selon elle, les chercheurs et les cadres qui promeuvent le développement des grands modèles possèdent souvent des profils similaires, servent des objectifs commerciaux analogues et sont guidés par les mêmes pressions concurrentielles. Dans ce système d’incitation, publier plus rapidement les produits, élargir plus vite la base d’utilisateurs et gagner plus rapidement la compétition sur le marché ont souvent une priorité supérieure à la sécurité, à l’équité et aux questions éthiques.

Et tous ceux qui tentent de ralentir ce processus risquent d’être perçus comme des obstacles. Ironiquement, Gebru a formulé ce point de vue au sein même de Google, qui, en la licenciant, lui a donné l’illustration la plus dramatique.

Plus triste encore, peu après l’événement, Margaret Mitchell, codirectrice de l’équipe d’IA éthique, a également été licenciée — en seulement 90 jours, l’anciennement fière équipe d’IA éthique de Google était pratiquement dissoute.

Après avoir quitté Google, Gebru a fondé en 2021 l'Institut de recherche en IA distribuée (DAIR, Distributed AI Research Institute). Contrairement aux grandes entreprises technologiques, cet organisme vise à mener des recherches en IA au-delà des intérêts commerciaux, avec un objectif direct : étudier les questions que les géants de la technologie ne souhaitent pas nécessairement aborder. Au cours des dernières années, le DAIR s'est concentré sur des sujets tels que l'origine des données, l'équité des algorithmes, la diversité linguistique et la concentration du pouvoir dans l'industrie de l'IA.

Éthique de l'IA

Avec l'explosion du développement de l'IA générative, de plus en plus de chercheurs commencent à réexaminer l'article « Le danger des perroquets aléatoires » : ils constatent que les problèmes autrefois considérés comme des inquiétudes exagérées sont désormais des réalités discutées quotidiennement dans l'industrie.

Peut-être qu'elle a simplement vu le problème avant les autres.

Six ans plus tard, le public ne pourra peut-être jamais obtenir une réponse que tout le monde accepte concernant le différend entre Timnit Gebru et Google.

Google considère qu'il s'agit d'un processus académique normal de revue et de démission ; Gebru estime qu'elle a été réprimée pour avoir insisté sur la publication de ses résultats de recherche. Mais un point devient de plus en plus difficile à nier :

L'article qui l'a poussée à quitter Google n'a pas perdu de sa pertinence avec la fin de la controverse.

Au contraire, les problèmes qu'il aborde — telles que les illusions, les biais, la pollution des données, les coûts environnementaux, l'effondrement des modèles et la concentration du pouvoir — sont devenus aujourd'hui des sujets incontournables pour toute l'industrie de l'IA.

Parfois, l'histoire donne son évaluation d'une manière inattendue.

En 2020, beaucoup de gens pensaient que Timnit Gebru était trop pessimiste ;

En 2026, les gens ont commencé à réaliser qu'elle avait peut-être simplement vu les problèmes plus tôt que les autres.

Lien de référence : https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

Cet article provient du compte officiel WeChat « CSDN », compilé par Zheng Liyuan