Як створити вірусний короткий драматичний відеоролик за допомогою Seedance 2.0 та GPT 2.0

Автор: Команда контенту Changan I Biteye

Чи може людина, яка ніколи не монтувала відео, створити AI-відео з сюжетом, діалогами та змінами кадрів?

Так, і весь процес займе менше половини дня.

Ця стаття навчає вас, як перейти від ідеї історії → розбиття на сцени → генерації відео → монтажу фінального відео.

Не потрібно жодних знань — просто дотримуйтесь кроків, і ви отримаєте повний AI-відеоролик.

I. Від ідеї до історії: AI-відео не створюється однією підказкою

Багато людей, які починають створювати AI-відео, спочатку відкривають Jimeng, дивляться на вікно введення і не знають, що написати. Набирають кілька слів, генерується результат сильно відрізняється від уявлень, і вони починають сумніватися, чи інструмент поганий чи просто не вміють писати підказки.

Наприклад, «Я хочу зробити Biteye Мала сестра переродилася в криптовалютному світі як великий гравець» — це ідея, а не історія.

Ідея — це напрямок, який показує, що саме потрібно зробити. Історія — це структура, яка вказує, що знімати в кожному кадрі. Між ідеєю та історією лежить певна робота — це сценарний план.

Найпростіший спосіб — відкрити будь-який LLM і прямо сказати йому те, що у вас є в голові, — нечітку ідею, і нехай він допоможе розширити історію. Ви не повинні самі розуміти всі деталі; вам потрібно лише надати напрямок, а решту можна разом з ним виводити.

Після визначення сюжетної лінії не розбивайте сцени безпосередньо, а спочатку розділіть їх на кілька великих фрагментів відповідно до ритму оповіді, чітко визначивши, що є основною дією в кожному фрагменті. Цей крок допомагає контролювати загальний ритм і запобігає надмірному уповільненню або занадто швидкому розвитку сюжету.

Довжина одного відео в Ji Meng — до 15 секунд, а на практиці найстабільнішим є 12 секунд і менше, оскільки ймовірність виникнення проблем з зображенням мінімальна. Для відео тривалістю 1 хвилину, якщо кожен фрагмент у середньому становить 10 секунд, знадобиться приблизно 5 фрагментів.

Ми розбили нашу історію на п’ять абзаців:

Пункт один: Вступ, основна задача — описати сцену та персонажів.
Параграф два: Путешествие во времени, основная задача — пояснить хронологію.
Пункт три: Показати перетворення персонажа від непорозуміння до ясності.
Розрахуйте багатство і підніміть емоції до апогею.
Пункт п’ять: завершіть реверс, замкнувши цикл з початком.

Seedance 2.0

Після визначення абзаців розбийте кожен абзац на конкретні описи кадрів. Для кожного кадру вкажіть чотири елементи: головний об’єкт, місце розташування, що робить, кут зйомки. У кадрах не описуйте рух, лише статичний момент.

Скопіюйте сценарій з параграфа один у чат з ІІ, введіть «Допоможіть мені створити описи кадрів на основі сценарію з сценарію один», і отримайте наступний ефект👇

Seedance 2.0

Друге: від історії до зображення — спочатку визначте персонажів, сцени та ескізи

Цей розділ є найважливішим у всьому процесі — якість зображень, які ви створюєте тут, безпосередньо визначає верхню межу якості фінального відео.

Спочатку створіть три проекції, зафіксуйте свого головного героя

Перед тим як створювати будь-які скетчі, перша річ — це зробити три проекції головного героя.

Три види — це три зображення одного персонажа: спереду, збоку та ззаду, щоб закріпити його зовнішній вигляд; пізніше, при створенні будь-яких сцен, ці три зображення використовуються як еталон для підтримки консистентності персонажа.

Якщо пропустити цей крок і одразу згенерувати скетчі, ви помітите, що кожного разу персонажі виглядають по-різному: змінюється зачіска, форма обличчя — відео взагалі не вдасться зробити.

Відкрийте ChatGPT/Seedream і введіть у поле діалогу:

Створіть три проекції маленької сестри Biteye

Штучний інтелект створить зображення з трьома кутами одного й того ж персонажа. Якщо отриманий персонаж значно відрізняється від бажаного, завантажте зображення-посібник.

Після того як ви задоволені трьома проекціями, завантажте це зображення — під час кожного наступного створення відео його потрібно буде знову завантажити як еталон.

Seedance 2.0

Зробіть ще один ескіз сценарію, зафіксуйте свій тло

Після визначення ролі, за тією ж логікою, спочатку створіть окрему ескізну картинку для вашої сцени, введіть у діалогове вікно: «Допоможи мені згенерувати зображення офісу»

Seedance 2.0

Перед початком генерації скетчів необхідно спочатку зрозуміти базове поняття: кадр — це найменша одиниця виразу відео.

Камера теж може «говорити» — різні кадри передають різну інформацію. Найпоширеніші кадри такі:

Панорамний кадр: надає інформацію, завдяки якій глядач розуміє, де відбувається сцена та хто є персонажами.
Середній план: використовується для просування сюжету, дозволяє чітко бачити рухи та вираз обличчя, є найпоширенішим планом у повісті.
Крупний план: створення емоцій — знімайте лише обличчя, руки або певний ключовий предмет, збільшуючи деталі, щоб викликати сильну емоційну відповідь у глядача.

Після розуміння окремого кадру потрібно піднятися на ще один рівень: відео — це не один кадр, а комбінація кількох кадрів, зібраних разом у ритмі.

У реальному виробництві ми зазвичай використовуємо «чотириклітинну» та «дев’ятклітинну» сітку для організації структури кадрів у відео — тобто розміщуємо 4 або 9 кадрів у одному відео для повного вираження.

Вибір між чотириклітинною та дев’ятитабличною сіткою — це суть контролю над ритмом:

Повільні секції: наприклад, вступ, що встановлює атмосферу, або фінал, що завершує емоцію — достатньо чотирьохкадрової схеми; чотири кадри надають достатньо простору для того, щоб кожен кадр «дихав».
Швидкий темп: наприклад, у під час битви, коли потрібні часті зміни кадрів для створення напруженості, використання дев’ятитабличної сітки з дев’ятьма кадрами в одному відео дає зовсім інший ефект монтажу.

Після розуміння кадрування та ритму можна почати реальне створення: перетворити абстрактну історію на конкретні зображення.

Після того як підготовлено три проекції персонажа та референси сцени, наступним кроком є перетворення кожного описаного епізоду з попередніх сценаріїв у візуальні зображення. Причина проста: AI краще працює з «визначеними окремими кадрами», ніж з «послідовними змінами», що також значно зменшує ймовірність невдачі.

Конкретний спосіб:

Кожного разу генеруйте один кадр: спочатку завантажте три проекції персонажа та відповідні зображення-посилання на сцену до діалогу ChatGPT, а потім введіть підказку для генерації картинки з цього ескізу.

Допоможіть мені створити зображення чотирьох сцен за сюжетом та описом кадрів (з додаванням попередніх кадрових описів, згенерованих ІІ), разом із зображенням сцени та зображенням персонажів

Модель розбije цей кадр на чотири кадри на основі наданих вами інформацій про сцени, забезпечуючи консистентність персонажів і сцен, ефект такий:

Seedance 2.0

💡 Маленькі поради: при генерації зображень з тексту є кілька поширених помилок — знання про них заздалегідь зекономить вам багато спроб:

Щоб створити кадр, де персонаж тримає смартфон під час гри, екран смартфона автоматично повертається до глядача. Логіка ШІ полягає у забезпеченні «читабельності контенту», через що гра перетворюється на заважаючий елемент зображення. Правильний підхід: «тримайте смартфон обома руками горизонтально, екран звернений до обличчя персонажа, а задня панель — до камери».
Професійні терміни заохочують AI асоціювати цілі сцени: написавши «медсестра», AI уявитиме лікарню, написавши «шеф-повар», AI уявитиме кухню. Правильний підхід: описуйте лише одяг, який ви справді хочете, не згадуючи професійні назви.
Генерація зображень за текстом може створювати лише статичні кадри, «поворот голови» не має відповідного візуального стану. Правильний підхід: описуйте лише те, що присутнє у цьому кадрі.

Seedance 2.0

Три: від зображення до відео — у промптах пишіть дії, а не переписуйте зображення

Сценарії готові, зараз ми перетворимо їх на рухоме відео.

🌟 Реєструйтеся і мрійте

Відкрийте браузер і знайдіть «JiMeng AI», перейдіть на офіційний сайт. Натисніть «Увійти» у правому верхньому куті — для реєстрації можна використовувати обліковий запис Douyin або номер телефону, у Китаї доступ без обмежень.

Нові користувачі можуть безкоштовно створити відео тривалістю 15 с. Якщо вам потрібен доступ до членства, Biteye小师妹 порівняла ціни на Seedance 2.0 на багатьох платформах — докладніше дивіться у матеріалі: «Посібник з підписки на Seedance 2.0 за найнижчою ціною в мережі!»

🌟 Як написати підказки для відео?

Це найважливіший момент цього кроку, а також місце, де новачки найчастіше роблять помилки.

Спочатку завантажте всі зразкові зображення: JiMeng підтримує одночасне завантаження кількох зображень — просто перетягніть зображення в чат. Завантажте всі матеріали, які ви підготували на попередньому етапі: тривимірні зображення персонажа, референси сцен, розбивку на 4 або 9 кадрів — все разом. JiMeng проаналізує інформацію з усіх цих зображень, щоб згенерувати відео.

Багато новачків допускають помилку, повторюючи те, що вже видно на зображенні. Мрія вже бачить ваше зображення, тому вам не потрібно розповідати їй, що на ньому зображено.

У підказці потрібно описати: що рухається на екрані, як вона рухається, чи рухається сама камера, і що відбувається протягом кожного інтервалу часу.

За даним шаблоном, кожен рядок відповідає певному часовому інтервалу у відео:

Допоможіть мені згідно з вищевказаною сценарною схемою згенерувати відео.

[початкова секунда до кінцевої секунди], [кадр], [тип руху камери], [персонаж або об’єкт] + [конкретна дія], звук: [опис звуку].

Seedance 2.0

🌟 Опис голосу — це найчастіше ігнорована частина для новачків. Якщо у відео є діалоги, просто написати «голос» недостатньо — модель випадковим чином згенерує голос як зразок. Щоб забезпечити однаковий голос персонажа у кількох відео, є два способи:

1️⃣ Використовуйте аудіо з першого абзацу як зразок

Спочатку згенеруйте перший відеофрагмент; після того як ви задоволені результатом, експортуйте аудіо з цього відео окремо. У подальшому, при генерації кожного наступного фрагмента, завантажуйте це аудіо як зразок звуку — це дозволить системі використовувати цей тембр для генерації голосу у наступних фрагментах, забезпечуючи сталість звучання.

2️⃣ Знайдіть еталонний тон за допомогою Fish Audio

Відкрийте Fish Audio, знайдіть звук, що відповідає характеру персонажа, прослухайте його та завантажте фрагмент як опорний аудіофайл. Під час генерації кожного відео використовуйте цей опорний аудіофайл, щоб забезпечити однорідність звуку у всьому відео.

🌟Керуйте інтонацією AI-голосу за допомогою розділових знаків

Напишіть сценарій для голосової моделі ШІ, це не просто введення тексту. Одне й те саме речення, з різними розділовими знаками, може звучати зовсім по-різному.

Основна логіка: розділові знаки керують паузами, а паузи визначають емоцію.

…… Крапки дозволяють перервати звук, але зберігати дихання, що підходить для думок, коливань або незавершених фраз.

……! Комбінування — це раптовий вибух після тривалого тиску.

() Вміст у дужках автоматично знижується до шепоту, підходить для внутрішнього монологу та самодіалогу.

*Вміст* Слова, оточені зірочками, стануть нижчими, повільнішими та важчими, щоб підкреслити ключову інформацію.

[] У квадратних дужках пишіть інструкції, а не діалоги, наприклад [глибоко вдихнути], [зупинитися на 1 секунду], модель виконає дію, а не промовить це.

💡 Маленькі поради:

Штучний інтелект не має уявлення про напрямки, часто не може розрізнити ліво і право, тому потрібно додавати «схему відносного розташування», щоб пояснити AI, як рухаються персонажі, як показано на малюнку 1. Є простіший спосіб: використовуйте стрілки, щоб описати траєкторію руху персонажів, і на кінці додайте «видалити стрілки».
Пишіть повільно, а не швидко. Модель значно стабільніше обробляє повільні рухи, ніж швидкі. Для швидкого темпу фрагментів краще використовувати швидкість монтажу, ніж змушувати модель генерувати швидкі рухи.
Для кожного відео завантажуйте зразкове зображення, а не тільки один раз. Модель не має пам’яті між сегментами, і без завантаження зразкового зображення зовнішність персонажа може змінитися.

Seedance 2.0

Чотири: від фрагментів до фінального відео — монтаж визначає кінцеву якість відео

Редагування та пост-продакшн — це той етап, який завершує весь процес. Кожен фрагмент, згенерований раніше, є окремим, може мати різний колір, непослідовний ритм і розсіяний звук. Редагування полягає у тому, щоб об’єднати ці фрагменти в єдину історію.

Після додавання музики до відео емоції глядачів посилюються, а додавання субтитрів робить діалоги чіткішими. Той самий матеріал, якщо його добре монтувати, може виглядати на порядок краще, ніж погано змонтований.

Чотири кроки: розташування матеріалів → уніфікація кольорів → додавання звуку → додавання субтитрів, нарешті — експорт.

Крок 1: Розташуйте матеріали

Відкрийте JianYing, перетягніть усі фрагменти на часову шкалу в порядку сцен. На цьому етапі не звертайте уваги на колір і звук, просто підтвердьте порядок і перегляньте загальну ритміку — виріжте зайве з надто довгих фрагментів.

Другий крок: єдина палітра кольорів

Фрагменти, згенеровані в різний час, можуть мати дрібні відмінності у кольоровій температурі та яскравості, що робить їх схожими на розривні при об’єднанні. Розв’язок: виділіть усі фрагменти, додайте фільтр через опцію «Регулювання» — для сцени один використовуйте холодний синій відтінок, а з другої сцени — теплий жовтий, достатньо підтримувати однорідний колір всередині кожної сцени.

Крок 3: Додайте фонову музику та звукові ефекти

Діалоги вже оброблені під час створення відео, цей етап призначений для додавання двох типів звуків: фонової музики та атмосферних ефектів.

Фонова музика визначає загальний емоційний тон, гучність має бути знижена до менше ніж 30% від рівня діалогів, щоб не заглушати голос.

Крок 4: Додати субтитри

Використовуйте «Інтелектуальні субтитри» в JianYing, щоб автоматично виявити діалоги. Після виявлення перевірте на помилки, вирівняйте шрифт і позицію. Для коментарів або внутрішніх монологів рекомендується використовувати інший стиль, наприклад, курсив або інший колір.

П’ять: Від інструментів до виразу: що справді змінило AI-відео

У попередній статті «GPT Image 2.0 підсилює Seedance 2.0: кожен може зняти голлівудський блокбастер» ми вважали, що в епоху ШІ: «зняття відео» стає доступнішим, і майбутнє належить кожному, хто зможе зняти голлівудський блокбастер.

Але низький поріг вхідного бар’єру не означає, що ти зможеш це зробити.

Інструменти є відкритими, а інструкції можна знайти скрізь, але більшість людей застрягають в одному й тому самому місці: ніколи не пройшли повний цикл.

У цій статті Biteye вже допоміг вам перетворити розмиту ідею на повноцінний відеоролик.

Раніше цей процес вимагав повного набору професійних спеціалістів: сценариста, художника-постановника, художника, оператора, монтажера — кожен етап був бар’єром.

А зараз ці етапи не зникли, а просто були стиснуті в один процес.

Це означає більш фундаментальну зміну: відео більше не є продуктом «виробничої здатності», а починає ставати продуктом «здатності до вираження».