ByteDance's Seedance 2.0 викликає зміни в галузі е-комерції, геймінгу та кіно

Автор: Чжэн Міньфанг

Джерело: Wall Street Journal

Коли OpenAI на іншому боці океану, здається, натиснула «паузу» для AI-генеруючої моделі Sora, китайські технологічні гіганти, натомість, запустили контрнаступ у цій галузі.

Попередньо, найновіший відео-генератор AI компанії ByteDance Seedance 2.0 вийшов у мережу, швидко засвітивши Інтернет завдяки перевагам у багатомодальному введенні, автоматичному кадруванні, послідовності тощо.

Засновник компанії Game Science Фенг Цзи після глибокого досвіду дав дуже значущий висновок: «У сфері контенту обов'язково настане рекордна інфляція».

Пророцтво Фен Цзи не було безпідставним занепокоєнням.

Ця хвиля шоку швидко поширюється на електронну комерцію, геймінг, відеоплатформи, кіномистецтво та інші галузі: у сфері електронної комерції технічні бар'єри для низькокваліфікованих підрядників і місць зйомок повністю зруйновані; у геймінгу, цикл виробництва концептуальних доказів та матеріалів для закупівель суттєво скорочено, конкуренція стає жорсткішою; відеоплатформи змушені далі оптимізувати логіку розподілу, щоб впоратися з вибухом пропозицій; а традиційний лінійний процес «зйомка + монтаж» у кіномистецтві стикається з вимогою зниження вимог до «підказкам + генерації» промислового трубопроводу.

Велика галузева перестановка, що стосується вигод та замін, вже почалася.

Вибух виробничих можливостей відео

У минулому році найбільшою проблемою відео на основі штучного інтелекту була доставка.

Як Sora, Runway, так і вітчизняні класичні, навіть власноручна модель ByteDance, існує така проблема. Автори часто глибоко занурюються в гру «випадковості», щоб отримати кілька секунд відео без руйнування та з гармонійністю, потрібно багаторазово генерувати їх десятки разів.

Основна інновація Seedance 2.0 полягає у спробі перетворити «виступ з ефектом» на «відтворювану історію».

Головним чином, прорив у ключових здібностях проявляється в трьох аспектах:

Перше – це багатомодальний ввід. За власними випробуваннями TechCrunch, учасники клубу «Just Dream» при першому вході можуть відразу використовувати Seedance 2.0, заплативши 1 юань за автоматичне продовження підписки. Підтримується ввід тексту, зображень, відео та аудіо як матеріалів для посилання, і, можна сказати, майже всі формати, які ви можете уявити, можна ввести для генерації відео.

Другий – це зрозуміння навігації, навчитися самостійно керувати кадром. Seedance 2.0 демонструє «режисерське» мислення, здатне не тільки зрозуміти складну логіку історії, але й автоматично організувати кінокадри, виконуючи операції з кадрування, зміни масштабу, руху камери. Відео більше не є просто простим зсувом статичних зображень, а має кіномову логіку історії.

Третя — це послідовність зображення. За даними тестів AllTech, багато AI-відеогенераторів мають проблеми зі зруйнованим виразом обличчя під час руху об'єкта та з'являються проблеми з чіткістю та розмитістю фону.

Але згідно з демонстраційним відео, Seedance 2.0 зберігає послідовність рухів голови, кадрів тощо, що забезпечує цілісне вираження сюжету.

Це означає, що генерація відео штучним інтелектом переходить від іграшки до інструменту. Ця здатність перетворення генерації відео в стандартизовану промислову лінію зробить звичайним фактом, що «кожен є режисером», і значно скоротить витрати на виробництво відео.

Фен Цзи використовує «інфляцію» для опису цієї зміни.

«Витрати на виробництво звичайних відео більше не можна буде вимірювати за традиційною логікою кіноіндустрії, поступово наближаючись до маргінальних витрат обчислювальної потужності. У сфері вмісту обов'язково настане рекордна інфляція, традиційна організаційна структура та процес виробництва будуть повністю перебудовані. Я впевнений, що всі, хто вже встиг скористатися, швидко зрозуміють, що цей прогноз не є надмірним занепокоєнням.» — сказав Фенг Цзи.

Перший ударний хвилі

Коли граничні витрати виробництва відео наближаються до нуля, бізнес-моделі, побудовані на старих структурах витрат, будуть першими, хто відчує наслідки.

Електронна комерція, ігри, відеоплатформи, кіномистецтво – ці чотири галузі, можливо, перші відчувають наслідки.

Найбільш прямий вплив спочатку відчувся в сфері електронної комерції.

Демонстрація товарів, сценарні виступи та відео з поясненням функцій за своєю суттю не залежать від складних художніх історій, а полягають у чіткому передаванні інформації.

З поширенням Seedance 2.0, межа, яку мали виробники відео, була повністю зруйнована. Низькокласні відео-фірми, які раніше залежали від «інформаційної різниці» та «технічних меж», і бази зйомок на Taobao зіткнуться з важкими часами, а виробництво відео, можливо, змінить напрямок з професійних фірм на власні звичайні операції продавців.

Порівняно з електронною комерцією, вплив моделей генерації відео на основі штучного інтелекту на геймінг може бути відносно обмеженим, але революція вже почалася.

Стояність світогляду, демонстрація концепції, вартість матеріалів для купівельних кліпів зменшується експоненційно. Більше проектів буде перевірено на ранніх стадіях, а також буде виключено на ранніх стадіях.

Внутрішній джерело гри компанії в Пекіні розповіло TechWeb, що компанія вже розпочала невеликі тести Seedance 2.0.

Моделі генерації відео штучного інтелекту також змінюють логіку розподілу відео на платформах.

Для платформ, таких як TikTok та Kuaishou, відео, створені за допомогою моделей, таких як Seedance 2.0, призводять до вибухового зростання обсягу контенту, що примусово переносить ядро конкурентної переваги платформи на механізм «відбору та розподілу», наприклад, чий алгоритм зможе точніше видобути золото з безлічі контенту, створеного штучним інтелектом, і чия комерційна ефективність вища, той і переможе.

У сфері кіно й телебачення багатокамерна навігаційна здатність Seedance 2.0 може змінити процес виробництва.

Раніше створення одного фільму чи телевізійної роботи зазвичай підкорялося строгому лінійному промисловому процесу: спочатку здійснювалося масове зйомки матеріалів, а потім монтажери вибирали їх, об'єднували в кінцівці, створюючи логіку історії.

Але в логіці Seedance 2.0 ця межа стає все більш нечіткою.

У процесі зйомок існує можливість дешевого генерування майбутніх декорацій за допомогою AI-моделей; сама модель має здатність зрозуміти рух камери та ритм історії, і фактично вже синхронно виконує «монтаж» у момент генерації відео.

АІ більше не просто випускає окремі фрагменти, а доставляє безпосередньо кінцеві матеріали з послідовними просторово-часовими зв'язками.

Це означає, що тривала післязйома стадія традиційного виробництва фільмів стикається з ризиком бути знищеною алгоритмами «знищувального удару».

Майбутній потік створення може більше не бути «зйомка + монтаж», а стати «запит + генерація», а функції монтажиста змістяться від «робітника» до «інженера команд» або «експерта естетики».

Хоча відео, яке зараз генерує Seedance 2.0, не є відсотково ідеальним, логічні деталі, кадри тощо все ще потребують покращення, але на тлі того, що темпи технічних ітерацій значно перевищують очікування ринку, ці проблеми в найближчому майбутньому не стануть перешкодою.

«Річка з бар'єром» IP

Seedance 2.0 захоплююча здатність «відродження» створює відчуття творчого задоволення для звичайних людей, але водночас створює непередбачуваний тиск для власників авторських прав.

У цілому, останні дні велика кількість «другорядних» творів і навіть жартівливих фрагментів класичних фільмів Чоу Цзіньші широко поширилися на короткодіапазонних відео-платформах.

У руках AI-моделів з генерації відео, обчислювальна потужність дозволила користувачам з низькими витратами відтворити міміку Чоу Цзі-вей, його типовий сміх, навіть класичний стиль реплік, навіть згенерувавши багато неймовірних сюжетів, яких ніколи не відбувалося.

Це швидко викликало увагу команди Чоу Цзі-чі.

Чжоу Синьци брокер Чжэнь Чжэнью публічно висловив сумнів: «Хочу запитати, чи це порушення прав (особливо останні два дні велика кількість поширення), я впевнений, що автори вже отримали прибуток, а чи не дозволяє певна платформа користувачам генерувати та публікувати?»

Це запитання, здавалося б, відкрило тривогу щодо авторського права в епоху штучного інтелекту, але з погляду глибокої комерційної логіки це саме так доводить надзвичайну дефіцитність топових інтелектуальних прав в епоху штучного інтелекту.

У майбутньому, коли різноманітні змісту, згенеровані штучним інтелектом, будуть накривати потоком, сама технологія більше не буде бар'єром, тому що у всіх буде однаковий інструмент Seedance 2.0.

Справжні бар'єри все ще залишаються в руках власників IP.

Саме через те, що на ринку є багато «вищих копій» Чоу Ссин-ці, «істинний Чоу Ссин-ці» стає незамінним.

Коли не тільки надлишок, а й «інфляція» вмісту, час і увага користувачів стають більш цінними, ніж коли-небудь. Увагу користувачів все ще можуть миттєво залучити класичні IP, які витримали випробування часом і мають сильну емоційну проникність.

Іншими словами, незважаючи на те, що штучний інтелект знизив поріг виробництва, він необмежено підвищив цінність «впізнаваності».

Перспективи для власників інтелектуальної власності все ще виглядають добре. Засоби інтелектуальної власності, накопичені протягом багатьох років, більше не будуть просто об'єктами порушення, а будуть здатні до експоненційного зростання комерційної вартості через легальні ліцензії, використовуючи важіль штучного інтелекту, через руки безлічі творців.

Від того, як у лютому 2024 року OpenAI випустила Sora 1.0, яка стала першою у світі AI-моделлю для генерації відео тривалістю до 60 секунд, до теперішнього моменту, коли Seedance 2.0 від ByteDance здатна генерувати 60-секундні фільми з автентичним аудіо-оповіданням за допомогою багатомодального введення, минуло всього 2 роки.

У цей час швидкого технологічного розвитку всі сфери діяльності стоять перед вибором: витрати на виконання завдань постійно скорочуються, професії, які базуються на повторюваності, кількості працівників і тривалості роботи, будуть безжалісно замінені; водночас, значення інтелектуальної власності та творчості постійно зростає.

Коли інструменти стануть доступними, вирішальним стане не вміння користуватися програмним забезпеченням, а наскільки унікальним є уявлення людини про світ.