Статья Тимнит Гебру 2020 года предсказала основные риски ИИ, которые сейчас реализовались

Если вернуться к 2020 году, большинство специалистов в области ИИ обсуждали, насколько сильна GPT-3.

В то время генеративный ИИ еще не стал глобальной темой, ChatGPT появится только через два года, а крупные модели еще не вызвали нынешнего мирового инвестиционного ажиотажа. Однако именно в тот год один из ведущих исследователей Google из-за еще не опубликованной статьи вступил в острый конфликт с компанией и в итоге потерял работу.

В то время многие считали, что это просто еще один спор из Силиконовой долины о управлении персоналом, академических публикациях и корпоративной культуре; но теперь, оглядываясь назад, люди понимают, что предупреждения из этой статьи почти полностью подтвердились в реальном мире.

А уволенным исследователем стала одна из самых влиятельных фигур в области этики ИИ — Тимнит Гебру.

Этика ИИ

Скандал с увольнением, потрясший мир ИИ

В декабре 2020 года Тимнит Гебру объявила в социальных сетях, что была уволена из Google.

Сообщение быстро вызвало бурную реакцию во всем сообществе исследователей ИИ. Дело в том, что на тот момент Гебру была не просто обычным исследователем, а со-руководителем команды этики ИИ в Google и одним из известных ученых в области справедливости ИИ и алгоритмических предвзятостей.

Гебру, родившаяся в Эфиопии, долгое время занималась вопросами расовой предвзятости, гендерной дискриминации и социальной справедливости в области ИИ. До присоединения к Google она проводила исследования в Стэнфордском университете. В 2018 году она участвовала в публикации исследования алгоритмической предвзятости, которое многие считают важным переломным моментом в исследовании справедливости ИИ. В том же году Google пригласила её в команду и громко продемонстрировала приверженность компании принципам «ответственного ИИ (Responsible AI)».

Однако всего через два года стороны расстались.

В то время Google официально заявила, что Gebru ушла в отставку по собственному желанию, но сама Gebru представила совершенно другую версию: она сказала, что во время отпуска получила письмо от компании, в котором ей сообщили, что её увольнение вступает в силу немедленно, а все внутренние системные права и доступ к почте были отключены одновременно.

По её мнению, это было бесспорное увольнение.

Затем более 4000 сотрудников Google и отраслевых экспертов подписали открытое письмо с вопросами к подходу компании и требованием восстановить Гебру на должности — всё это стало следствием академической статьи всего в 14 страниц.

Статья из 14 страниц вызвала споры

Эта статья называется «On the Dangers of Stochastic Parrots» («О опасностях стохастических попугаев»), авторами которой являются Тимнит Гебру, профессор лингвистики Вашингтонского университета Эмили Бендер, а также еще два исследователя; на сегодняшний день она цитировалась более 14 000 раз.

Позже название «случайный попугай» также стало широко известным. (Ссылка на статью: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

В статье отмечается, что крупные языковые модели по сути воспроизводят языковые паттерны на основе статистических закономерностей: они способны генерировать плавный, естественный и даже логичный текст, но не понимают истинного смысла языка — подобно попугаю, научившемуся имитировать человеческую речь, который выглядит умным, но на самом деле его имитация основана исключительно на огромном объеме текстов из интернета. Сам интернет наполнен предвзятостью, дискриминацией и ненавистническим контентом. Следовательно, крупные модели с высокой вероятностью усваивают эти проблемы и продолжают усиливать их при генерации контента.

Стоит отметить, что это был 2020 год, когда GPT-3 только что вышел, ChatGPT еще не существовал, и волна крупных моделей только начиналась — эта статья уже заранее предсказала одну из самых острых проблем сегодняшней индустрии.

После подачи статьи на ведущую конференцию по этике ИИ руководство Google потребовало: либо отозвать статью, либо убрать имена исследователей Google из списка авторов. Гебу отказалась, потребовав от компании указать конкретные причины и предложив провести дальнейшее обсуждение.

В то же время она отправила резкое письмо внутренней группе сотрудников Google.

В письме Гебру критиковала Google за отсутствие реальных действий в продвижении найма представителей меньшинств и решении внутренних проблем неравенства. Она написала: «Когда вы начинаете защищать интересы уязвимых групп, ваша ситуация становится все хуже. Вы делаете других руководителей некомфортно». Она также заявила, что если компания так и не сможет объяснить, почему была отозвана статья, она в подходящий момент выберет уход.

Развитие событий превзошло все её ожидания. Гугл ответил, что не выполнит её требования и сразу принял её «отставку», отозвав все её права доступа.

At the time, the incident quickly became one of the most controversial topics in the global AI community.

То, что когда-то казалось радикальной точкой зрения, сегодня стало реальностью

Что действительно делает это событие предметом обсуждения до сих пор, — это не само увольнение, а содержание статьи — ведь, глядя на это сегодня, почти каждая из озвученных в ней озабоченностей превратилась в реальную проблему, с которой сталкивается индустрия ИИ.

(1) Первое предупреждение: модель может «выдумывать»

В 2020 году GPT-3 только что был выпущен. Люди восхищались способностью модели генерировать текст, но мало кто всерьез обсуждал его надежность.

Ге и Бендер отмечают: по мере постоянного увеличения масштаба моделей люди все чаще будут принимать плавное выражение за истинное понимание. Модели кажутся способными мыслить, но на самом деле они просто предсказывают следующее наиболее вероятное слово, поэтому рано или поздно они начнут генерировать информацию, которая выглядит разумно, но полностью неверна.

А сегодня эта проблема получила всем известное название: иллюзии ИИ (Hallucination). Независимо от того, используете ли вы ChatGPT, Gemini, Claude или другие передовые модели, проблема иллюзий до сих пор не решена полностью.

В определенном смысле, эта статья точно предсказала «галлюцинации» до того, как они стали отраслевым трендом.

(2) Второе предупреждение: предвзятость не исчезнет, а усилится

Статья также отмечает, что сам интернет не является нейтральным источником данных, и обучающие данные изначально содержат различные расовые, гендерные, культурные и географические предвзятости. Модель не только учит эти предвзятости, но и может усиливать их за счет механизмов оптимизации.

Позже различные реальные проблемы подтвердили эту озабоченность:

Amazon когда-то пыталась использовать ИИ для отбора резюме соискателей, но система автоматически снижала оценку резюме, содержащих ключевые слова, такие как «women» (женщины).

Было обнаружено, что система оценки медицинских рисков, используемая в нескольких крупных больницах США, длительное время недооценивала медицинские потребности чернокожих пациентов.

Кредитная карта Apple Card также привлекла внимание регуляторов из-за того, что женщинам выдавали значительно более низкие кредитные лимиты, чем мужчинам.

Эти примеры показывают, что алгоритмы не обеспечивают автоматической справедливости; наоборот, они могут скрыто закрепить неравенство реального мира.

(3) Третье предупреждение: энергопотребление ИИ станет новой проблемой

В 2020 году стоимость вычислительной мощности не привлекала такого внимания, как сегодня, но в этой статье уже обсуждалось экологическое воздействие обучения сверхкрупных моделей. По оценкам исследователей, выбросы углерода при обучении крупной языковой модели эквивалентны общему объему выбросов за весь жизненный цикл пяти автомобилей — в то время это утверждение многими воспринималось как чрезмерно пессимистичное.

Однако по мере того как инфраструктура для ИИ вступает в фазу гонки вооружений, возникают проблемы: согласно опубликованным Google данными, выбросы парниковых газов компании в 2024 году выросли на 48% по сравнению с 2019 годом; Microsoft за тот же период также увеличила свои выбросы примерно на 29%. Обе компании прямо указали, что центры обработки данных для ИИ и инфраструктура вычислительных мощностей являются важной причиной этого роста.

Ирония в том, что несколько лет назад эти технологические гиганты громко провозглашали цели по достижению углеродной нейтральности.

(4) Четвертое предупреждение: никто точно не знает, что содержится в обучающих данных

Для многих людей обучение данных кажется исключительно инженерной задачей. Однако Гебру считает, что по мере увеличения объема данных полная аудитория обучающих данных станет практически невозможной.

Ее точка зрения снова подтвердилась: в 2023 году исследователи обнаружили в наборе данных LAION-5B, широко используемом для обучения моделей генерации изображений, большое количество изображений жестокого обращения с детьми, и несколько основных моделей, включая Stable Diffusion, ранее использовали этот набор данных.

Как и ожидалось, многие разработчики ранее не знали о существовании этого контента. То есть даже сами разработчики модели未必 действительно понимают, что именно модель «поглощает» — а это как раз один из первых вопросов, поставленных в статье.

(5) Пятый предупреждающий сигнал: Интернет постепенно будет заполняться AI-контентом

По мнению Google, это, возможно, самая чувствительная часть всей статьи. Гебу и Бендер считают, что развитие крупных моделей в конечном итоге приведет к концентрации контроля над языком и культурой в руках немногих технологических гигантов. Причина проста: обучение сверхкрупных моделей требует колоссальных финансовых ресурсов, вычислительной мощности и данных, и лишь немногие компании действительно способны участвовать в этой гонке.

Со временем доминирующий голос в интернете постепенно превратится в статистическое среднее значение, обученное небольшим числом компаний, которое затем будет распространяться по всему миру под видом «нейтрального помощника». В то же время языки и культуры, представленные в обучающих данных в меньшей степени, будут еще больше маргинализированы.

Более того, когда сгенерированный ИИ контент снова попадает в интернет и становится данными для следующего цикла обучения, проблема постоянно усиливается — именно это сегодня исследователи называют «крахом модели (Model Collapse)».

Исследование 2024 года показало, что около 57% нового контента в английском сегменте интернета уже являются сгенерированными ИИ или с участием ИИ; исследования, проведенные по языкам с ограниченными ресурсами, выявили, что из-за того, что обучающие данные все чаще поступают из сгенерированного ИИ контента, качество перевода некоторых языков значительно ухудшилось.

Другими словами, эта статья не только предсказала явление «краха модели», но и до появления этого понятия указала на его механизмы формирования.

После ухода из Google она решила продолжить исследования

После того как произошли эти события, многие позже описывали Гебру как «противника ИИ». На самом деле это не так — она никогда не выступала за прекращение развития ИИ. С самого начала она ставила под сомнение другое:

Кто именно определяет направление развития ИИ?

По её мнению, исследователи и менеджеры, продвигающие развитие крупных моделей, часто имеют схожий фон, служат схожим коммерческим целям и находятся под одинаковым давлением конкуренции. В таких стимулах более высокий приоритет часто отдаётся более быстрой публикации продуктов, более быстрому росту числа пользователей и более быстрому завоеванию рынка, чем вопросам безопасности, справедливости и этики.

Все, кто пытается замедлить этот процесс, могут быть восприняты как препятствия. Ирония в том, что Гебру высказала эту точку зрения внутри Google, а сама компания, уволив ее, придала этой идее наиболее драматичное реальное подтверждение.

Еще более печально то, что вскоре после инцидента была уволена и другая со-руководитель этической команды ИИ — Маргарет Митчелл — за 90 дней команда этического ИИ, которой Google когда-то гордилась, была практически распущена.

После ухода из Google в 2021 году Гебру основала Институт распределённых исследований ИИ (DAIR, Distributed AI Research Institute). В отличие от крупных технологических компаний, эта организация стремится проводить исследования в области ИИ за пределами коммерческих интересов, и её цель проста: изучать вопросы, с которыми крупные технологические гиганты не хотят сталкиваться. В последние годы DAIR сосредотачивалась на таких темах, как источники данных, справедливость алгоритмов, языковое разнообразие и концентрация власти в индустрии ИИ.

Этика ИИ

По мере взрывного развития генеративного ИИ все больше исследователей снова обращают внимание на статью «Опасность случайных попугаев»: они обнаружили, что проблемы, которые ранее считались чрезмерным беспокойством, сегодня стали реальностью, о которой ежедневно обсуждают в отрасли.

Возможно, она просто раньше других увидела проблему

Прошло шесть лет, и внешний мир, возможно, никогда не получит ответа, с которым согласятся все, касательно спора между Тимнит Гебру и Google.

Google считает, что это был обычный академический обзор и уход; Джебру считает, что её подавили за настаивание на публикации результатов исследований. Но один факт становится всё труднее отрицать:

Та статья, которая привела к её уходу из Google, не утратила значения с окончанием скандала.

Наоборот, вопросы, которые он обсуждает — иллюзии, предвзятость, загрязнение данных, экологические затраты, крах моделей и концентрация власти — сегодня стали неотъемлемой частью всей индустрии ИИ.

Иногда история оценивает вещи неожиданным образом.

В 2020 году многие считали Тимнит Гебру слишком пессимистичной;

В 2026 году люди начали осознавать, что, возможно, она просто раньше других увидела проблему.

Ссылка для справки: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

Эта статья взята из официального аккаунта WeChat «CSDN», подготовлено: Чжэн Лиюань