Обличчя, згенеровані ШІ, заповнюють короткі відео, викликаючи громадський протест

«Стандартне обличчя», згенероване моделями AI для відео, вторгається у стрічку користувачів. Це витончене, з білою шкірою обличчя AI з’являється в шкільних драмах, історичних серіалах та навіть у перетворених на протилежну стать персонажах, викликаючи масове незадоволення користувачів. Тестування показало, що кілька основних відеомоделей при використанні однакових підказок генерують одне й те саме обличчя — це пов’язано з тим, що платформи за замовчуванням увімкнені підсилення підказок, а також із наявністю естетичних упереджень у даних для навчання моделей. Щоб забезпечити послідовність обличчя, моделі природньо схильні до симетричних рис та стандартних контурів. Накладання потреб платформи, користувачів і моделей призвело до того, що зміст, згенерований AI, потрапив у ловушку естетичної однорідності. Дослідники попереджають, що це явище може посилювати суспільні естетичні стереотипи.

Автор статті, джерело: Чапін X.PIN

Потрібні справжні красуні, щоб зробити знімки та відновити зорове сприйняття.

Всім, хто часто дивиться короткі серіали та короткі відео, це обличчя повинно бути знайоме.

Ті, хто не бачив цього, можуть подумати, що це новий інфлюенсер, а насправді це обличчя, згенероване ШІ, яке неодноразово з’являється у різних відео.

Чіткі риси обличчя, достатньо великі очі, достатньо маленький ніс, шкіра завжди біла, завжди м’який фільтр світла, кутки губ у ідеальному положенні.

Якби ця людина стояла перед тобою в реальності, Шічао навіть не відважився б сказати нічого поганого. Але саме це беззахисне обличчя було жорстоко «засмітено» в інтернеті.

Не тому, що вона дуже неприваблива, а тому, що вона, як інвестор у світі ШІ, з’являється у всьому.

Її було білим місяцем на кампусі, і вона ж була панночкою з історичного драматичного серіалу.

Це вона — маленька дівчинка п’яти чи шести років, це вона — старенька бабуся вісімдесяти чи дев’яноста років.

Ще раз уважно подивившись, вуа, як це поруч із головним платком чоловік — вона??

Щодня, відкриваючи телефон, бачиш ту саму обличчя, і перегляд коротких відео викликає страх перед оточенням псевдочоловіків.

А зі зростанням кількості тих, хто виявив це, у мережі заполонили коментарі користувачів:

Це обличчя, я вже наївся.

Зараз це обличчя викликає у мене фізіологічну відразу.

Скільки людей відчувають неприязнь, бачачи її?

Також хтось здивувався: чому AI генерує людей, які всі однакові? Чий обличчя він вкрав?

У коментарях хтось припускає, що це закрита стримерша, хтось каже, що схожа на актора Лі Чуаня, а хтось — що схожа на сестру Пак Чханьола... І правда, як не дивись — і в Україні, і за кордоном, і чоловіки, і жінки можуть здаватися трохи схожими.

Але проблема в тому, що гадати немає сенсу, бо замість того, щоб була вкрадена конкретна обличчя, це, ймовірно, просто «середнє ідеальне обличчя», створене повторно на конвеєрі штучного інтелекту, яке взагалі не існувало.

Тоді це обличчя звідки взялося?

Шічжао, не вірять у поговорку, послідовно протестував основні відеомоделі: Seedance, KeLing, HaiLuo, HappyHorse — і під час експерименту справді виявив певну закономірність.

Ми дали всім моделям дві спроби з тим самим запитом «дівчина їде на велосипеді»; за логікою, обличчя, які вони генерують кожного разу, мають бути різними — іноді азіатськими, іноді іноземними, саме це й є природою великих моделей.

Оскільки ми обмежилися лише статтю, без будь-яких інших підказок, він повинен випадково генерувати людей будь-якої національності, будь-якого кольору шкіри, будь-якої причіски, одягу тощо — абсолютно різних людей.

На практиці, за тих самих підказок, майже всі моделі двічі генерують однакове обличчя, одяг, оточення та кут зйомки.

У Seedance 2.0 Fast Шічжао знову знайшов ту саму штучну інтелектуальну обличчя, що й на початку — схоже, ось джерело всіх зол.

Якщо помиляється лише одна модель, можливо, це проблема саме її. Але якщо всі моделі одночасно втрачають різноманітність... Ші Чжао провів дослідження і виявив, що тут може бути дві причини.

На першому рівні, ті, хто використовує відеомоделі, повинні знати, що відеомоделі дуже чутливі до текстових підказок. Іноді одне слово або порядок кількох символів може вплинути на кінцевий результат генерації.

Щоб забезпечити максимально стабільний вивід коштів під час кожного витягування, наші підказки часто піддаються вторинній оптимізації на бекенді.

Раніше «підсилення промпту» розміщувалося окремою кнопкою, і користувачі могли або використовувати його, або відправити оригінальний промпт без змін. Але Ши Чжао перевірив багато платформ і здавалося, що зараз це зустрічається дуже рідко — покращення промпту стало стандартним.

Наприклад, якщо я ввів «Дівчина їде на велосипеді і сміється», то оптимізований варіант, який фактично надсилається моделі, може виглядати так:

Молода, красива азійська дівчина їде на велосипеді сонячною алеєю. У неї світла шкіра, витончені риси обличчя, великі очі, маленький ніс, довгі волосся природньо хвилюються. Вона одягнена у білу сукню і посміхається м’якою, солодкою посмішкою. Кадр — середній план, м’який природний світло, малий глибина різкості, кінематографічний стиль, свіжий і прекрасний вигляд, природні вираз обличчя, плавні рухи, висока чіткість і реалізм.

Дивитися один або два рази — це оптимізація підказок, але якщо робити це тисячі разів, то це вже лінія збирання.

Отже, після того як Шічао змінив підказку і додав опис зовнішності, обличчя в правому нижньому куті стало суттєво відмінним. Але без додаткових підказок щодо оточення жінка все ще сидить на велосипеді вздовж тіньової алеї.

Проте, гарні риси обличчя бувають різними, а оскільки у світі стільки красунь, чому AI визнає лише цю?

Це призводить до другої причини: зображення та відеомоделі мають вбудовані естетичні упередження.

Рік тому в статті, опублікованій у журналі «Nature», цей питання було чітко розглянуто. У своєму дослідженні вони виявили, що якщо вказати расу, то згенеровані моделлю обличчя виглядають як брати-близнюки.

Таке естетичне спотворення спочатку походить із даних: наприклад, більшість людей схильні до популярних облич, які природньо позначаються як красуні. Модель нічого не розуміє — просто, коли в подальшому запитують «красуня», вона буде прагнути до цього напрямку.

Під час навчання модель додатково посилює цю упередженість, що призводить до того, що обличчя, згенеровані за однаковими ключовими словами ознак, стають все більш схожими.

Крім того, відеомоделі для забезпечення послідовності між кадрами можуть ще більше посилювати естетичну стандартизацію.

Нарешті, обличчя, згенеровані відеомоделями, мають бути не лише красивими, а й стабільними — забезпечуючи, щоб протягом десятків або сотень кадрів вони виглядали як одна й та сама людина з усіх боків.

Тому модель також природньо віддає перевагу обличчям, які легше підтримувати в єдності: симетричні риси, стандартні контури, неекстремальні риси, легко керовані вирази та зберігають форму при повороті.

В підсумку, платформі подобаються безпечні й гарні, користувачам — короткі серіали з інфлюенсерами, моделям — стабільні й стандартні, і разом вони створили обличчя, від якого всі втомилися.

Чесно кажучи, йому не подобаються майже всі досконалі жінки, згенеровані ШІ, а не тільки та, що недавно стала вірусною.

Джерело: XiaoHongShu @Alexander

Запуск AI-обличчя в наші стрічки став ненавмисним великим кібернетичним експериментом з альтерацією.

Обличчя, що не має реального прототипу, народжене в результаті численного очищення та дистиляції даних інфлюенсерів.

Коли вони витісняють наш час, проведений за телефоном, замінюючи колишніх різноманітних реальних красунь, Шічао відчуває величезний дискомфорт, бо наше сприйняття світу та визначення краси під тиском ШІ.

Отже, люди відчувають неприязнь до AI-обличчя, з одного боку, можливо, через ефект «дивної долини», спричинений їх нереалістичністю, а з іншого — через інстинктивний опір однорідності.

Хтось каже, що відео з ІШ пізніше має ставати все чіткішим, деталізованішим і все більше схожим на реальних людей, і коли люди перестануть розрізняти правду від неправди, їм це сподобається.

Але Ши Чжао вважає, що навіть якщо технологія зможе створити нерозрізнену істину та брехню, ми не зможемо закохатися в ідеальну фальшиву обличчя без душі.

Зображення, джерела:

«Обличчя, згенеровані ШІ, впливають на гендерні стереотипи та расову гомогенізацію» N Аль-Дахул

Xiaohongshu, Douyin