Как создать вирусный короткий драматический ролик с помощью Seedance 2.0 и GPT 2.0

Автор: Команда контента Changan I Biteye

Может ли человек, который никогда не монтировал видео, создать короткий AI-видеоролик с сюжетом, диалогами и сменой кадров?

Да, и весь процесс займет менее половины дня.

Эта статья научит вас: придумать историю → разбить её на сцены → сгенерировать видео → отредактировать финальную версию.

Нет необходимости иметь какой-либо опыт — просто следуйте инструкциям, и вы получите полный AI-короткий видеоролик.

I. От идеи к истории: AI-видео не создается одной подсказкой

Многие, начиная создавать AI-видео, первым делом открывают Jiyeng, смотрят на поле ввода и не знают, что написать. Набрав несколько слов, они получают результат, сильно отличающийся от того, что представляли себе, и начинают сомневаться, то ли инструмент неудобный, то ли они не умеют составлять промпты.

Например, «Я хочу сделать Biteye Младшую сестру, которая перерождается в криптовалютном мире и становится большим боссом» — это идея, а не история.

Идея — это направление, которое говорит вам, что примерно нужно сделать. Сюжет — это структура, которая говорит вам, что снимать в каждом кадре. Между идеей и сюжетом существует определённая работа, которая называется сценарным планированием.

Самый простой способ — открыть любую LLM и прямо сказать ей своё расплывчатое представление, чтобы она помогла развернуть историю. Вам не нужно самостоятельно продумывать все детали — достаточно задать направление, а остальное можно вывести вместе с ней.

После определения сюжетной линии не разделяйте кадры сразу, а сначала разбейте её на несколько крупных фрагментов в соответствии с ритмом повествования, где каждый фрагмент четко выражает одну ключевую идею. Этот шаг необходим для контроля общего ритма, чтобы избежать слишком медленного или слишком поспешного прохождения какого-либо участка.

Длина одного видео в Ji Meng не должна превышать 15 секунд; на практике наиболее стабильной является продолжительность менее 12 секунд, при которой вероятность возникновения проблем с изображением минимальна. Для итогового видео длительностью 1 минуту, при средней продолжительности каждого фрагмента 10 секунд, потребуется примерно 5 фрагментов.

Мы разделили нашу историю на пять абзацев:

Параграф один: Вступление, основная задача — представить сцену и персонажей.
Параграф два: Путешествие во времени, основная задача — объяснить хронологию.
Параграф три: Покажите переход персонажа от замешательства к ясности.
Раздел 4: Расчет богатства, поднимающий эмоции до апогея.
Пункт пять: завершите реверс, замкнув цикл с началом.

Seedance 2.0

После определения абзацев разбейте каждый абзац на конкретные описания кадров. Для каждого кадра укажите четыре элемента: основной объект, местоположение, что происходит, угол съемки. Не описывайте движение в сценарии, только статичные моменты.

Скопируйте сценарий из раздела один в чат с ИИ, введите «Помогите мне сгенерировать описания кадров на основе сценария из сцены один», и вы получите следующий результат👇

Seedance 2.0

Второе: от истории к изображению: сначала определите персонажей, сцену и планы съемки

Этот этап является самым ключевым во всем процессе — качество изображений, которые вы создаете здесь, напрямую определяет верхний предел качества финального видео.

Сначала создайте три вида, зафиксируйте своего главного героя

Перед созданием любых скетчей первым делом необходимо подготовить три вида главного персонажа.

Три вида — это три изображения одного персонажа: спереди, сбоку и сзади. Цель — зафиксировать его внешний вид, чтобы во всех последующих сценах можно было опираться на эти три изображения для сохранения согласованности персонажа.

Если пропустить этот шаг и сразу сгенерировать сценарий, вы заметите, что персонажи каждый раз выглядят по-разному: меняется прическа, форма лица — и видео невозможно будет продолжить.

Откройте ChatGPT/Seedream и введите в поле чата:

Создайте для меня трехвидовой чертеж маленькой сестры Biteye

ИИ создаст изображение с тремя углами одного и того же персонажа. Если получившийся персонаж сильно отличается от желаемого, вы можете загрузить эталонное изображение.

После того как трёхмерные проекции вас устроят, скачайте эту картинку — каждый раз при создании видео её нужно будет загружать обратно в качестве эталона.

Seedance 2.0

Создайте еще один рисунок сценария, зафиксируйте свой фон

После определения персонажа используйте ту же логику и сначала создайте отдельную справочную картинку сценария; введите в чат: «Помоги мне сгенерировать изображение офиса»

Seedance 2.0

Перед тем как приступить к созданию сценарных изображений, необходимо понять базовое понятие: кадр — это наименьшая выразительная единица видео.

Камера тоже может «говорить» — разные планы передают разную информацию. Часто используемые планы следующие:

Общий план: предоставляет информацию, позволяя зрителю понять, где происходит сцена и какие персонажи присутствуют.
Средний план: используется для продвижения сюжета, позволяет четко видеть движения и выражения лиц, является наиболее часто используемым планом в повествовании.
Крупный план: создание эмоций — снимайте только лицо, руки или какой-либо ключевой предмет, увеличивая детали, чтобы вызвать у зрителей сильную эмоциональную реакцию.

Поняв отдельный кадр, нужно подняться на один уровень выше: видео — это не один кадр, а комбинация нескольких кадров, объединённых в ритме.

В реальном производстве мы обычно используем «четырехклеточную» и «девятиклеточную» структуры для организации кадров в видео — то есть размещаем 4 или 9 кадров в одном видео для полного выражения идеи.

Выбор между четырьмя и девятью ячейками по сути является контролем ритма:

Медленные фрагменты: например, вступление, задающее обстановку, или заключение, завершающее эмоциональную линию, — достаточно четырехклеточной сетки; четырех кадров достаточно, чтобы каждый кадр мог «дышать».
Быстрые секции: например, кульминация боевой сцены требует частой смены кадров для создания напряжения — здесь использование сетки 3×3, где девять кадров помещаются в одно видео, даёт совершенно иной эффект монтажа.

Поняв композицию и ритм, можно приступить к реальному созданию: превратить абстрактную историю в конкретные изображения.

После того как подготовлены три вида персонажа и референсные изображения сцены, следующим шагом является превращение каждого из написанных ранее описаний сцен в визуализированные кадры. Причина проста: ИИ лучше справляется с «определенными отдельными кадрами», а не с «непрерывно меняющимися процессами», что также значительно снижает вероятность неудачного результата.

Конкретные действия:

Загружайте три вида персонажа и соответствующие референсные изображения сцены в диалог с ChatGPT, а затем введите промпт для генерации каждого кадра.

Помогите мне создать четырехкадровую картинку по сюжету и описанию сцен (приложены предыдущие сценарии, сгенерированные ИИ), включая изображение сцены и персонажей.

Модель разобьет этот кадр на четыре изображения на основе предоставленной вами информации о сценах, обеспечивая согласованность персонажей и фона, результат будет следующим:

Seedance 2.0

💡 Маленькие советы: при генерации изображений по тексту есть несколько распространённых ловушек — зная их заранее, вы сэкономите много попыток:

Чтобы создать кадр, в котором персонаж держит телефон и играет в игру, экран телефона должен автоматически поворачиваться к зрителю. Логика ИИ направлена на то, чтобы «содержимое было читаемым», превращая игру в помеху для изображения. Правильный подход: «удерживайте телефон обеими руками горизонтально, экран направлен к лицу персонажа, задняя панель телефона — к камере».
Профессиональные термины заставляют ИИ ассоциировать целую сцену: напишите «медсестра» — ИИ представит больницу, напишите «повар» — ИИ представит кухню. Правильный подход: описывайте только ту одежду, которую вы действительно хотите, не упоминая профессиональные названия.
Генерация изображений по тексту может создавать только статичные кадры, «поворот головы» не имеет соответствующего визуального состояния. Правильный подход: описывать только то, что присутствует в этом кадре.

Seedance 2.0

Три: от изображения к видео: в промпте нужно описывать действия, а не переписывать изображение

Сценарии готовы, теперь мы превратим их в анимированное видео.

🌟Регистрация — и мечта сбывается

Откройте браузер и найдите «Ji Meng AI», перейдите на официальный сайт. Нажмите «Войти» в правом верхнем углу — вы можете зарегистрироваться с помощью аккаунта Douyin или номера телефона, внутри Китая доступ возможен напрямую.

Новые пользователи могут бесплатно создать 15-секундное видео. Если вам нужна подписка на начало, Biteye Xiao Shimei также сравнила цены на Seedance 2.0 на различных платформах — подробности см. в статье: «Самое выгодное подключение к Seedance 2.0!»

🌟 Как написать подсказки для видео?

Это самое важное место на этом этапе и то, где новички чаще всего допускают ошибки.

Сначала загрузите все опорные изображения: Ji Meng поддерживает одновременную загрузку нескольких опорных изображений — просто перетащите изображения в чат. Все материалы, которые вы подготовили в предыдущей главе: трехвидовые изображения персонажа, опорные изображения сцен, сетки 4x4 или 9x9 с раскадровкой, — загрузите их все сразу. Ji Meng проанализирует информацию со всех этих изображений и сгенерирует видео.

Здесь многие новички допускают ошибку, повторяя описание того, что изображено на экране. Мечта уже видит вашу загруженную картинку, вам не нужно снова сообщать ей, что на ней изображено.

Промпт должен описывать: что движется на экране, как именно оно движется, движется ли сама камера, и что происходит в течение каждого промежутка времени.

Следуйте шаблону ниже: каждая строка соответствует определенному моменту в видео.

Используя приведённые выше кадры, сгенерируйте видео.

[начальная секунда до конечной секунды], [кадр], [тип движения камеры], [персонаж или объект] + [конкретное действие], звук: [описание звука].

Seedance 2.0

🌟 Описание звука — это самая часто игнорируемая часть новичками. Если в видео есть диалоги, недостаточно просто написать «голос», модель случайным образом сгенерирует звук в качестве эталона. Чтобы обеспечить согласованность голоса персонажа в нескольких видео, есть два способа:

1️⃣ Используйте аудио из первого абзаца в качестве эталона

Сначала сгенерируйте первый видеоролик. После того как вы будете довольны результатом, экспортируйте аудио этого видеоролика отдельно. При генерации каждого последующего фрагмента загружайте это аудио в качестве эталона звука, чтобы ИИ использовал этот тембр для создания голоса в последующих фрагментах и обеспечивал согласованность звучания.

2️⃣ Используйте Fish Audio для поиска эталонного звучания

Откройте Fish Audio, найдите звук, соответствующий характеру персонажа, прослушайте его и скачайте фрагмент в качестве эталонного аудиофайла. При генерации каждого видео используйте этот эталонный аудиофайл, чтобы обеспечить единообразие звука во всем видео.

🌟 Используйте знаки препинания для управления интонацией AI-голоса

Напишите сценарий для голосовой модели ИИ, а не просто вводите текст. Одно и то же предложение, с разной пунктуацией, может звучать совершенно по-разному.

Основная логика заключается в том, что знаки препинания контролируют паузы, а паузы определяют эмоции.

…… Многоточие прерывает звук, но сохраняет дыхание, подходит для состояния размышлений, колебаний или незавершённой речи.

……! Комбинированное использование — это внезапный взрыв после подавления.

( ) Содержимое в скобках автоматически снижается по громкости, превращаясь в шепот, подходит для внутреннего монолога и саморазговора.

*Слова, заключённые в звёздочки, станут ниже, медленнее и тяжелее, чтобы подчеркнуть ключевую информацию.*

[] В квадратных скобках пишите инструкции, а не реплики, например [глубоко вдохнуть], [пауза 1 секунда], модель выполнит действие, а не произнесет вслух.

💡 Маленькие советы:

ИИ не имеет представления о направлениях и часто не может различать лево и право, поэтому необходимо создавать отдельные «схемы пространственных отношений», чтобы показать ИИ, как движется персонаж, как показано на рисунке 1. Существует также простой способ: используйте стрелки для описания траектории движения персонажа и в конце добавьте «удалить стрелки».
Пишите медленно, а не быстро. Модель гораздо стабильнее обрабатывает медленные движения, чем быстрые. Для быстрых сцен используйте скорость монтажа, а не генерацию быстрых движений моделью.
Каждое видео нужно загружать с опорным изображением, не загружайте его только один раз. Модель не обладает памятью между фрагментами; без загрузки опорного изображения внешность персонажа будет отклоняться.

Seedance 2.0

Четвертый этап: от фрагментов к готовому видео — монтаж определяет окончательное качество видео

Монтаж и пост-продакшн — это ключевой этап всего процесса. Каждый фрагмент, созданный на предыдущих этапах, является отдельным, может иметь разные цветовые тона, неравномерный ритм и разрозненный звук. Задача монтажа — объединить эти фрагменты в единое целое.

После добавления музыки к видео эмоции зрителей усиливаются, а субтитры делают реплики более понятными. Одни и те же материалы, при хорошей и плохой сборке, могут значительно отличаться по качеству финального результата.

Действия состоят из четырех шагов: упорядочить материалы → унифицировать цветовую гамму → добавить звук → добавить субтитры, затем экспортировать.

Шаг 1: Расположите материалы

Откройте JianYing, перетащите все фрагменты на временную шкалу в порядке сцен. Сначала игнорируйте цвет и звук, убедитесь в правильности порядка и просмотрите общий ритм на наличие проблем — на этом этапе обрежьте лишнюю часть слишком длинных фрагментов.

Шаг 2: Единая цветовая гамма

Фрагменты, созданные в разное время, могут иметь незначительные различия по цветовой температуре и яркости, что создает ощущение разрыва при их объединении. Решение: выделите все фрагменты, примените фильтр в разделе «Регулировка» — для сцены один используйте холодный синий оттенок, для сцены два и последующих — теплый желтый; достаточно сохранять единообразие тона внутри каждой сцены.

Шаг 3: Добавьте фоновую музыку и звуковые эффекты

Звук диалогов уже обработан при создании видео; на этом этапе необходимо добавить два типа звуков: фоновую музыку и звуковые эффекты окружающей среды.

Фоновая музыка определяет общую эмоциональную атмосферу; громкость должна быть снижена до менее 30% от уровня диалогов, чтобы не перекрывать речь.

Шаг 4: Добавить субтитры

Используйте «Умные субтитры» в JianYing для автоматического распознавания диалогов. После распознавания проверьте опечатки и унифицируйте шрифт и расположение. Для комментариев или внутренних монологов рекомендуется использовать другой стиль, отличный от обычных диалогов, например, курсив или другой цвет.

Пять: От инструментов к выражению: что действительно изменили AI-видео

В предыдущей статье «GPT Image 2.0 усиливает Seedance 2.0: Каждый может снять голливудский блокбастер» мы считали, что в эпоху ИИ барьер для «съемки видео» снижается, и в будущем каждый сможет снимать голливудские блокбастеры.

Но низкий порог входа не означает, что вы сможете это сделать.

Инструменты открыты, руководства легко найти, но большинство застревают в одном и том же месте: никогда полностью не прошли процесс от начала до конца.

В этой статье Biteye уже помог вам превратить расплывчатую идею в полноценный фильм.

Раньше этот процесс требовал целый набор профессиональных специализаций: сценаристов, арт-директоров, художников, операторов, монтажеров — каждый этап был барьером.

А сейчас эти этапы не исчезли, а были сжаты в один процесс.

Это означает более фундаментальное изменение: видео больше не является продуктом «производственной способности», а начинает становиться продуктом «выразительной способности».