Стаття Тімніт Гебру 2020 року передбачила великі ризики ШІ, які вже реалізувалися

Якби ми повернули час до 2020 року, більшість фахівців з ІО обговорювали, наскільки сильним є GPT-3.

Тоді генеративний ІІ ще не став глобальною темою, ChatGPT з’явиться лише через два роки, а великі моделі ще не викликали сьогоднішнього світового інвестиційного хвильового руху. Але саме в цей рік один із провідних дослідників ІІ у Google через ще не опубліковану статтю вступив у гострий конфлікт із компанією та втратив роботу.

Тоді багато хто вважав, що це був ще один скандал з Сіліконової долини щодо управління персоналом, академічних публікацій та корпоративної культури; але зараз, дивлячись назад, люди зрозуміли, що попередження з цієї статті майже повністю втілилися у реальному світі.

А саме відсторонений дослідник — один із найбільш впливових фахівців у галузі етики ШІ — Тімніт Ґебру.

Етичні аспекти ШІ

Відома подія звільнення в світі ШІ

Грудень 2020 року Тімніт Ґебру оголосила у соціальних мережах, що її звільнено з Google.

Повідомлення швидко викликало хвилю в усьому галузі досліджень ШІ. На той момент Ґебру була не просто звичайним дослідником, а співзасновницею команди етичного ШІ Google та одним із відомих світових фахівців у галузі досліджень справедливості ШІ та алгоритмічних упереджень.

Гебру, народжена в Ефіопії, довгий час займалася питаннями расової передобраності, статевої дискримінації та соціальної справедливості в галузі ШІ. До приєднання до Google вона проводила дослідження в Стенфордському університеті. У 2018 році вона брала участь у публікації дослідження про алгоритмічну передобраність, яке багато хто вважає важливим переломним моментом у дослідженнях справедливості ШІ. Того ж року Google запропонувала їй приєднатися до команди та гучно продемонструвала свою зацікавленість у «відповідальному ШІ (Responsible AI)».

Однак лише через два роки обидві сторони розійшлися.

На той момент Google офіційно заявила, що Gebru подала заяву про звільнення за власним бажанням, але сама Gebru навела зовсім іншу версію: вона сказала, що під час відпустки отримала лист від компанії, в якому їй повідомили, що її звільнення набуває негайної сили, а всі права доступу до внутрішніх систем та поштової скриньки були одразу відкликані.

На її думку, це було беззаперечне звільнення.

Після цього понад 4000 співробітників Google та інші фахівці підписали відкритий лист із запитаннями щодо підходу компанії та вимогою відновити Ґеґбу на посаді — а всі ці події спричинила лише 14-сторінкова академічна стаття.

Стаття з 14 сторінок викликала суперечки

Ця стаття під назвою «On the Dangers of Stochastic Parrots» («Про небезпеки випадкових папуг») авторства Тімніт Гебру, професора лінгвістики Університету Вашингтона Емілі Бендер та ще двох дослідників була цитована понад 14 000 разів.

Пізніше назва «випадковий попугай» також стала широко відомою. (Посилання на статтю: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

У статті зазначається, що великі мовні моделі за суттю відтворюють мовні шаблони на основі статистичних закономірностей: вони здатні генерувати плавний, природний і навіть логічний текст, але не розуміють справжнього змісту мови — подібно до папуги, яка навчилася імітувати людську мову, на перший погляд розумної, але насправді така імітація базується лише на величезних обсягах текстів з інтернету. А сам інтернет повний упереджень, дискримінації та ворожих матеріалів. Тому великі моделі дуже ймовірно вивчать ці проблеми разом із текстами та продовжуватимуть їх посилювати під час генерації контенту.

Варто зазначити, що це був 2020 рік, коли GPT-3 тільки вийшов, ChatGPT ще не існував, а хвиля великих моделей лише зароджувалася — ця стаття вже передбачила одну з найбільших проблем сьогоднішньої індустрії.

Після подання цієї статті на провідну конференцію з етики ШІ, керівництво Google вимагало відкликати статтю або вилучити імена дослідників Google зі списку авторів. Однак Ґеґбу відмовилася, вимагаючи від компанії пояснити конкретні причини та бажаючи провести подальший діалог.

Тим часом вона також надіслала напружене листа групі внутрішніх співробітників Google.

У листі Гебру критикує Google за відсутність конкретних дій щодо просування найму представників меншин та вирішення внутрішніх нерівностей. Вона пише: «Коли ти починаєш говорити від імені маргіналізованих груп, твоя ситуація стає все гіршою. Ти робиш інших лідерів незручно». Вона також зазначила, що якщо компанія ніколи не зможе пояснити, чому було відкликано статтю, вона вибере момент для виходу.

Розвиток подій перевищив її очікування. Gebru зазначила, що Google пізніше відповів, що не виконає її вимоги та прямо прийняв її «відставку», відразу скасувавши всі її права доступу.

На той момент подія швидко перетворилася на одну з найбільш суперечливих тем у галузі штучного інтелекту на глобальному рівні.

Раніше здавалося радикальними, а зараз це стало реальністю

Саме вміст цієї статті, а не саме звільнення, зробило цю подію предметом тривалих обговорень — бо сьогодні, переглядаючи її знову, можна побачити, що майже кожна зі згаданих у ній стурбованостей перетворилася на реальні проблеми, з якими зараз стикається галузь ШІ.

(1) Перше попередження: модель може «брехати»

У 2020 році GPT-3 тільки вийшов. Люди дивувалися здатності моделі генерувати текст, але майже ніхто серйозно не обговорював її надійність.

Геє і Бендер зазначили: зі збільшенням розміру моделей люди все частіше будуть помилково вважати плавне висловлювання справжнім розумінням. Моделі виглядають так, наче думають, а насправді просто передбачають найбільш ймовірне наступне слово, тому вони неодмінно будуть генерувати інформацію, яка виглядає логічно, але є повністю неправильною.

А сьогодні ця проблема отримала назву, яку знає кожен: AI-галюцинації (Hallucination). Незважаючи на ChatGPT, Gemini, Claude чи інші передові моделі, проблема галюцинацій досі не вирішена повністю.

У певному сенсі ця стаття точно передбачила «галюцинації» ще до того, як цей термін став популярним у галузі.

(2) Друге попередження: упередження не зникнуть, а посиляться

Стаття також зазначає, що сам Інтернет не є нейтральним джерелом даних, і навчальні дані природним чином містять різноманітні расові, гендерні, культурні та регіональні упередження. Моделі не лише вчаться цим упередженням, але й можуть ще більше посилювати їх через механізми оптимізації.

Пізніше ці занепокоєння підтвердилися різними реальними проблемами:

Amazon колись намагалася використовувати ШІ для фільтрації резюме кандидатів, але система автоматично знижувала оцінку резюме, що містили ключові слова, такі як «women» (жінки).

Було виявлено, що система оцінки медичного ризику, яка використовується багатьма великими лікарнями США, тривалий час недооцінювала медичні потреби чорношкірих пацієнтів.

Кредитна картка Apple також привернула увагу регуляторів через те, що жінкам надавали значно нижчі кредитні ліміти, ніж чоловікам.

Ці приклади показують, що алгоритми не забезпечують автоматичної справедливості; навпаки, вони можуть приховано закріплювати нерівність з реального світу.

(3) Третє попередження: енергоспоживання ШІ стане новою проблемою

У 2020 році витрати на обчислювальну потужність не отримували такої уваги, як сьогодні, але ця стаття вже почала обговорювати вплив навчання надвеликих моделей на навколишнє середовище. За оцінками дослідників, викиди вуглецю, пов’язані з навчанням однієї великої мовної моделі, дорівнюють загальному об’єму викидів за весь термін служби п’яти автомобілів — на той час це твердження вважали надто песимістичним.

Однак із переходом інфраструктури ШІ на етап змагання зброями швидко виявилися проблеми: згідно з публічними даними Google, викиди парникових газів компанії у 2024 році зросли на 48% порівняно з 2019 роком; Microsoft за той самий період збільшила викиди приблизно на 29%. Обидві компанії відкрито вказали, що центри обробки даних ШІ та інфраструктура обчислювальних потужностей є одним із ключових причин.

Дещо іронічно, але ці технологічні гіганти кілька років тому активно просували цілі щодо вуглецевої нейтральності.

(4) Четверте попередження: ніхто точно не знає, що міститься у тренувальних даних

Для багатьох навчання даних здається лише інженерною проблемою. Але Джебру вважає, що зі збільшенням масштабу даних повна аудит навчальних даних стане майже неможливою.

Її погляд знову підтвердився: у 2023 році дослідники виявили велику кількість зображень дитячого насильства у наборі даних LAION-5B, який широко використовувався для навчання моделей генерації зображень, включаючи кілька основних моделей, таких як Stable Diffusion.

Як і очікувалося, багато розробників раніше не знали про існування цих даних. Іншими словами, навіть самі розробники моделей можуть не розуміти, що саме модель «споживає» — а це саме одна з перших проблем, які були поставлені в статті.

(5) П’яте попередження: Інтернет поступово буде заповнений контентом, створеним ШІ

З точки зору Google, це, ймовірно, найбільш чутливий розділ статті. Гебу і Бендер вважають, що розвиток великих моделей в кінцевому підсумку призведе до концентрації мовних і культурних повноважень у руках небагатьох технологічних гігантів. Причина проста: навчання надвеликих моделей вимагає надзвичайно великих фінансових, обчислювальних та даних ресурсів, і лише кілька компаній мають справжню здатність брати участь у конкуренції.

З часом домінуючий голос у Інтернеті поступово перетвориться на статистичний середній показник, натренований кількома компаніями, який потім поширюватиметься по всьому світу під виглядом «нейтрального асистента». Тим часом мови та культури, які мають низьку частку у навчальних даних, будуть ще більше маргіналізовані.

Ще гірше, коли вміст, згенерований ШІ, знову потрапляє до Інтернету і стає даними для наступного навчання, проблема постійно підсилюється — саме це зараз дослідники називають «зруйнуванням моделі (Model Collapse)».

Дослідження 2024 року виявило, що приблизно 57% нових матеріалів у англомовному інтернеті вже є згенерованими штучним інтелектом або згенерованими з допомогою штучного інтелекту; дослідження щодо мов з обмеженими ресурсами показали, що через те, що навчальні дані все частіше походять зі згенерованих штучним інтелектом матеріалів, якість перекладу деяких мов вже значно погіршилася.

Іншими словами, ця стаття не лише передбачила явище «зруйнування моделі», але й вказала на механізм його виникнення ще до того, як це поняття було офіційно сформульоване.

Після того як вона залишила Google, вирішила продовжити дослідження

Після події того року багато людей пізніше описували Ґебру як «проти ШІ». Насправді це не так — вона ніколи не закликала припиняти розвиток ШІ. З самого початку вона ставила під сумнів інше:

Хто саме визначає напрямок розвитку ШІ?

На її думку, дослідники та менеджмент, які продовжують розвиток великих моделей, часто мають подібний тлумачення, служать подібним комерційним цілям і підкоряються тим самим конкурентним тискам. У таких стимулах швидше запускати продукти, швидше збільшувати кількість користувачів і швидше вигравати ринкову конкуренцію часто має вищий пріоритет, ніж питання безпеки, справедливості та етики.

Усі, хто намагається сповільнити цей процес, можуть бути сприйняті як перешкодники. Іронія в тому, що Гебру сама висловила цю думку всередині Google, а Google, звільнивши її, надав цій думці найбільш драматичну реальну ілюстрацію.

Ще більш жалюгідно те, що всього через кілька днів після цієї події ще одного співзасновника етичної команди ШІ Маргарет Мітчелл також було звільнено — за всього 90 днів колишній гордість Google — команда етичного ШІ — майже повністю розпустилася.

Після того як вона залишила Google, у 2021 році Ґебру заснувала Інститут розподіленого дослідження ШІ (DAIR, Distributed AI Research Institute). На відміну від великих технологічних компаній, ця організація прагне проводити дослідження ШІ за межами комерційних інтересів, і її мета дуже проста: досліджувати питання, яких технологічні гіганти не бажають стосуватися. Протягом останніх кількох років DAIR постійно звертала увагу на питання походження даних, справедливості алгоритмів, мовної різноманітності та концентрації влади в індустрії ШІ.

Етичні аспекти ШІ

З розвитком генеративного ШІ все більше дослідників знову звертають увагу на статтю «Небезпека випадкових попугаїв»: вони виявили, що проблеми, які раніше вважалися надмірною тривогою, зараз стали реальністю, яку індустрія обговорює щодня.

Можливо, вона просто раніше за інших побачила проблему

Після шести років про суперечки між Тімніт Гебру та Google зовнішній світ, можливо, ніколи не отримає відповіді, з якою згодні всі.

Google вважає, що це була звичайна академічна перевірка та вихід з посади; Гебру вважає, що її пригнічували за те, що вона відстоювала публікацію своїх досліджень. Але один факт стає все важче заперечувати:

Та стаття, яка призвела до її виходу з Google, не втратила значення з припиненням суперечок.

Навпаки, питання, які він обговорює — ілюзії, упередження, забруднення даних, екологічні витрати, розпад моделей та концентрація влади — сьогодні стали невід’ємною частиною усієї індустрії ШІ.

Іноді історія дає оцінку несподіваним чином.

У 2020 році багато хто вважав Тімніт Гебру надто пессимістичною;

У 2026 році люди почали усвідомлювати, що, можливо, вона просто побачила проблему раніше за інших.

Посилання для довідки: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

Цей матеріал походить із офіційного каналу WeChat «CSDN», зібрано: Чжэн Ліюань