Comment créer un court drame viral en utilisant Seedance 2.0 et GPT 2.0

Auteur : Équipe de contenu Changan I Biteye

Une personne n'ayant jamais monté de vidéo peut-elle créer une courte vidéo AI avec une intrigue, des dialogues et des changements de plans ?

Oui, et tout le processus prend moins d'une demi-journée.

Cet article vous apprend à passer de : concevoir une histoire → décomposer en plans → générer une vidéo → monter la vidéo finale.

Aucune expérience requise, suivez simplement les étapes et vous obtiendrez une courte vidéo AI complète.

I. De l'idée à l'histoire : une vidéo AI n'est pas générée par une seule phrase d'invite

Beaucoup de personnes commencent leur première vidéo d’IA en ouvrant Jimeng, puis restent à fixer la zone de saisie, incertaines de ce qu’elles doivent écrire. Après avoir tapé quelques mots, le résultat généré est très éloigné de ce qu’elles imaginaient, ce qui les amène à se demander si l’outil est mal conçu ou si elles ne savent pas rédiger de bonnes invites.

Par exemple, « Je veux faire un Biteye, une petite sœur réincarnée dans le monde des cryptos en tant que grand patron », c’est une idée, pas une histoire.

Une idée est une direction qui vous indique大致 ce qu'il faut faire. Une histoire est une structure qui vous dit exactement quoi filmer à chaque scène. Entre l'idée et l'histoire, il y a un travail à accomplir : le développement du scénario.

La manière la plus simple consiste à ouvrir n'importe quel LLM, à lui dire directement l'idée floue que vous avez en tête, et à lui demander de vous aider à développer l'histoire. Vous n'avez pas besoin de clarifier tous les détails vous-même ; il vous suffit de fournir une direction, et le reste peut être déduit ensemble avec lui.

Une fois l’intrigue établie, ne divisez pas directement les plans ; commencez par découper l’histoire en plusieurs grands segments selon le rythme narratif, en définissant clairement l’élément central de chaque segment. Cette étape permet de maîtriser le rythme global et d’éviter qu’une partie ne soit trop lente ou trop précipitée.

La durée maximale d'une seule vidéo de Ji Meng est de 15 secondes ; en pratique, une durée inférieure à 12 secondes est la plus stable et présente la probabilité la plus faible de problèmes visuels. Pour une vidéo d'1 minute, en supposant une moyenne de 10 secondes par fragment, il faudra environ 5 fragments.

Nous avons divisé notre histoire en cinq paragraphes :

Paragraphe un : À l'ouverture, la tâche principale est de présenter le contexte et les personnages.
Paragraphe deux : Le voyage dans le temps, la tâche principale étant d'établir la chronologie.
Paragraphe trois : Mettre en scène la transition du personnage de la confusion à la clarté.
Calculez votre richesse et portez les émotions à leur paroxysme.
Paragraphe cinq : Achèvement de la réversibilité, bouclant ainsi l'introduction.

Seedance 2.0

Une fois les paragraphes déterminés, décomposez chaque paragraphe en descriptions de plans précis. Pour chaque plan, indiquez quatre éléments : sujet de l’image, emplacement, activité en cours, angle de prise de vue. N’incluez pas de mouvement dans les plans, décrivez uniquement des instants statiques.

Copiez le script du paragraphe un dans la boîte de discussion AI, entrez « Aidez-moi à générer des descriptions de plans à partir du script du scénario un », et obtenez le résultat suivant 👇

Seedance 2.0

Deuxièmement, passer de l'histoire à l'image : définissez d'abord les personnages, les décors et les planches.

Ce chapitre est le plus crucial de tout le processus ; la qualité des images que vous générer ici déterminera directement la limite supérieure de la qualité finale de la vidéo.

Faites d'abord les trois vues, puis verrouillez votre personnage principal.

Avant de générer任何 storyboard, la première chose à faire est de créer les vues en trois vues du personnage principal.

Les vues en trois plans sont trois images d'un même personnage : de face, de profil et de dos, afin de fixer son apparence. Par la suite, quel que soit le scénario généré, ces trois images servent de référence pour maintenir la cohérence du personnage.

Si vous passez directement à la génération des storyboards sans cette étape, vous constaterez que les personnages générés chaque fois ont des apparences différentes : leur coiffure change, leur forme de visage change, et il devient impossible de poursuivre cette vidéo.

Ouvrez ChatGPT/Seedream et saisissez dans la zone de discussion :

Générez une vue en trois vues de la petite sœur de Biteye.

L'IA générera une image avec trois angles de la même personne. Si la personne générée s'écarte beaucoup de ce que vous souhaitez, vous pouvez télécharger une image de référence.

Une fois les trois vues satisfaisantes, téléchargez cette image ; vous devrez la réuploader à chaque génération de vidéo comme référence.

Seedance 2.0

Créez à nouveau des images de référence de scénario, verrouillez votre arrière-plan.

Une fois le rôle déterminé, utilisez la même logique pour générer séparément une image de référence de votre scénario ; entrez dans le chat : « Aidez-moi à générer une image de bureau »

Seedance 2.0

Avant de commencer à générer les storyboards, il est essentiel de comprendre un concept fondamental : le plan est l'unité d'expression la plus élémentaire d'une vidéo.

Le cadrage parle aussi : différents plans transmettent des informations différentes. Les plans courants sont les suivants :

Plan d'ensemble : fournit les informations contextuelles ; le spectateur comprend grâce au plan d'ensemble où se déroule la scène et quels personnages sont présents.
Plan moyen : utilisé pour faire avancer l'intrigue, permet de voir clairement les mouvements et les expressions faciales ; c'est le plan le plus couramment utilisé dans la narration.
Plan rapproché : mettez en scène les émotions en filmant uniquement le visage, les mains ou un objet clé, en agrandissant les détails pour créer un impact émotionnel fort sur le spectateur.

Comprendre un seul plan n'est pas suffisant : il faut aller un niveau au-dessus : une vidéo n'est pas un seul plan, mais le résultat de plusieurs plans combinés selon un rythme.

Dans la pratique, nous utilisons généralement une grille 2x2 ou 3x3 pour organiser la structure des plans dans une vidéo — c’est-à-dire disposer 4 ou 9 plans pour exprimer complètement un message.

Le choix entre une grille 4x4 et une grille 9x9 revient essentiellement à contrôler le rythme :

Les passages à rythme lent : par exemple, l'introduction qui établit l'environnement ou la conclusion qui apaise l'émotion, un quadrillage de quatre cases suffit ; quatre plans offrent suffisamment d'espace pour que chaque image respire.
Passages à rythme rapide : par exemple, lors d’un point culminant d’action, les plans doivent être raccourcis pour créer une tension ; utiliser une grille 3x3 avec neuf plans intégrés dans une seule vidéo donne un rendu complètement différent.

Une fois que vous avez compris le cadrage et le rythme, vous pouvez commencer la production réelle : transformer l'histoire abstraite en images concrètes.

Une fois les vues de face, de profil et de dos du personnage ainsi que les images de référence de scène prêtes, l’étape suivante consiste à transformer chaque description de plan, une à une, en images visuelles. La raison est simple : l’IA est plus à l’aise avec des « images uniques et bien définies » qu’avec des « processus en évolution continue », ce qui réduit considérablement le taux de tirage aléatoire.

La méthode consiste à :

Générez un plan à la fois : téléchargez d'abord les vues en trois vues du personnage et les images de référence de la scène dans la conversation ChatGPT, puis entrez le prompt de génération du plan précédent.

Aidez-moi à générer une image de plan en quadrillage de quatre cases à partir du résumé de l’histoire et des descriptions de plans (avec les termes de plan générés précédemment par l’IA), accompagnée d’images de scène et d’images de personnages.

Le modèle décomposera cette scène en quatre plans en se basant sur les informations de storyboard fournies, en garantissant la cohérence des personnages et du décor, comme suit :

Seedance 2.0

💡 Astuce : plusieurs pièges courants en génération d’images à partir de texte ; les connaître à l’avance vous permettra d’économiser beaucoup de tentatives :

Pour générer une scène où un personnage tient un téléphone pour jouer, l'écran du téléphone se tourne automatiquement vers le spectateur. L'IA considère que « le contenu doit être lisible », ce qui fait du jeu vidéo une source de bruit visuel. La bonne approche consiste à : « tenir le téléphone horizontalement avec les deux mains, l'écran orienté vers le visage du personnage, et le dos du téléphone dirigé vers la caméra ».
Les termes professionnels font associer à l'IA un ensemble complet de scènes : écrire « infirmière » fait à l'IA associer un hôpital, écrire « cuisinier » fait à l'IA associer une cuisine. La bonne approche consiste à décrire uniquement les vêtements que vous souhaitez réellement, sans mentionner le nom du métier.
La génération d'images à partir de texte ne peut produire que des images statiques ; « en train de tourner la tête » n'a pas d'état visuel correspondant. La bonne approche consiste à décrire uniquement ce qui est présent dans cette image.

Seedance 2.0

Troisièmement : de l’image à la vidéo — les prompts doivent décrire des actions, pas réécrire l’image

Les storyboards sont prêts ; maintenant, nous allons les transformer en vidéos animées.

🌟 Inscrivez-vous et rêvez

Ouvrez votre navigateur et recherchez « Jimeng AI », puis accédez au site officiel. Cliquez sur « Se connecter » en haut à droite ; vous pouvez vous inscrire avec votre compte Douyin ou votre numéro de téléphone. L'accès est direct en Chine.

Les nouveaux utilisateurs peuvent générer gratuitement une vidéo de 15 s. Si vous avez besoin d’un abonnement, Biteye Xiao Shimei a comparé les prix de Seedance 2.0 sur plusieurs plateformes ; consultez le détail dans : « Guide pour souscrire à Seedance 2.0 au coût le plus bas sur Internet ! »

🌟 Comment rédiger des invites vidéo ?

C'est le point le plus crucial de cette étape et aussi l'endroit où les débutants font le plus souvent des erreurs.

Tout d'abord, téléchargez toutes les images de référence : Ji Meng prend en charge le téléchargement simultané de plusieurs images de référence ; il suffit de faire glisser les images directement dans la zone de discussion. Glissez et déposez en une seule fois tous les éléments que vous avez préparés dans le chapitre précédent : les vues en trois vues du personnage, les images de référence de scène, les grilles 4x4 ou 9x9 de storyboards. Ji Meng analysera ensemble toutes ces images pour générer la vidéo.

Beaucoup de débutants commettent cette erreur : ils décrivent à nouveau ce qui est visible à l’écran. Le rêve a déjà pu voir l’image que vous avez téléchargée, il n’est donc pas nécessaire de lui dire ce qu’elle contient.

Le prompt doit décrire : qu'est-ce qui bouge dans la scène, comment cela bouge, si le cadrage lui-même est en mouvement, et ce qui se produit à chaque intervalle de temps.

Suivez le modèle ci-dessous, chaque ligne correspond à une période du vidéo :

Aidez-moi à générer une vidéo en vous basant sur le storyboard ci-dessus.

[Seconde de départ à seconde de fin], [Plan], [Mouvement de caméra], [Personnage ou sujet] + [Action spécifique], bruit : [Description du son].

Seedance 2.0

🌟 La description sonore est la partie la plus souvent négligée par les débutants ; si la vidéo contient un dialogue, il ne suffit pas d’écrire « voix » — le modèle générera aléatoirement une voix comme référence. Pour garantir la cohérence de la voix du personnage entre plusieurs vidéos, deux méthodes existent :

1️⃣ Utilisez l’audio de la première phrase comme référence

Générez d'abord la première vidéo ; une fois satisfait du résultat, exportez séparément l'audio de cette vidéo. Pour chaque segment suivant, téléchargez cet audio comme référence sonore afin que l'IA puisse s'en inspirer pour générer la voix des segments suivants, en assurant une cohérence vocale.

2️⃣ Utilisez Fish Audio pour trouver une couleur de référence

Ouvrez Fish Audio, recherchez un son correspondant à l'atmosphère du personnage, écoutez-le en prévisualisation, puis téléchargez une section comme audio de référence. Utilisez systématiquement cet audio de référence pour générer chaque vidéo, afin de garantir une cohérence sonore tout au long du film.

🌟 Contrôlez l'intonation de la voix IA avec de la ponctuation

Écrivez des lignes pour un modèle de synthèse vocale IA, ce n'est pas juste taper du texte et c'est tout. La même phrase, avec des ponctuations différentes, peut produire des intonations complètement différentes.

La logique fondamentale est : la ponctuation contrôle les pauses, et les pauses déterminent l'émotion.

…… Les points de suspension interrompent la voix tout en maintenant le souffle, ce qui convient aux états de réflexion, d'hésitation ou de phrase inachevée.

…… ! Utilisé en combinaison, c'est une explosion soudaine après une suppression.

Le contenu entre parenthèses est automatiquement réduit en volume et devient un souffle, idéal pour les monologues intérieurs et les répliques à voix basse.

*Le mot entouré d'astérisques deviendra plus bas, plus lent et plus lourd, pour mettre l'accent sur les informations clés.*

[] Les crochets contiennent des instructions, pas des répliques, par exemple [inspire profondément], [pause de 1 seconde] ; le modèle exécute l'action au lieu de la dire.

💡 Astuces :

L'IA n'a pas de sens de l'orientation et confond souvent la gauche et la droite ; il faut lui fournir un « schéma de référence des relations spatiales » pour lui indiquer comment le personnage se déplace, comme illustré ci-dessous. Il existe aussi une méthode simple : utiliser des flèches pour décrire la trajectoire du personnage, puis ajouter à la fin « supprimer les flèches ».
Écrivez lentement, pas rapidement. Le modèle traite les mouvements lents beaucoup plus stablement que les mouvements rapides. Pour les séquences à rythme rapide, privilégiez l'accélération du montage plutôt que de faire générer des mouvements rapides par le modèle.
Chaque vidéo doit être accompagnée d'une image de référence ; ne l'uploadez pas une seule fois. Le modèle ne conserve pas de mémoire entre les segments ; sans image de référence, l'apparence du personnage dérivera.

Seedance 2.0

Quatre : De la séquence au montage final : le montage détermine la qualité finale de la vidéo

Le montage et la post-production sont les étapes clés qui apportent la touche finale à l'ensemble du processus. Chaque séquence générée précédemment est indépendante, avec des teintes potentiellement différentes, un rythme peu cohérent et des sons dispersés ; le montage consiste à assembler ces fragments en une histoire cohérente.

Ajouter de la musique à la vidéo stimule davantage les émotions des spectateurs ; ajouter des sous-titres rend les dialogues plus clairs. Les mêmes supports, s'ils sont montés différemment, peuvent donner des résultats finaux qui diffèrent d'un ordre de grandeur.

La méthode comprend quatre étapes : organiser les éléments → uniformiser les couleurs → ajouter le son → ajouter les sous-titres, puis exporter.

Étape 1 : Organiser les éléments

Ouvrez CapCut et glissez tous les clips sur la ligne du temps dans l'ordre des scènes. Ignorez temporairement la couleur et le son, vérifiez l'ordre, puis examinez globalement le rythme pour détecter d'éventuels problèmes ; raccourcissez les clips trop longs en supprimant les parties inutiles à cette étape.

Étape 2 : Uniformiser la palette de couleurs

Les fragments générés à différents moments peuvent présenter de légères différences de température de couleur et de luminosité, ce qui les rendra dissonants lorsqu'ils sont placés ensemble. Solution : sélectionnez tous les fragments, ajoutez un filtre global dans l'option « Ajuster » : utilisez une teinte bleue froide pour la scène un, puis passez à une teinte jaune chaude pour les scènes suivantes ; il suffit de maintenir une cohérence de teinte à l'intérieur de chaque scène.

Étape 3 : Ajouter une musique de fond et des effets sonores

Les voix ont déjà été traitées lors de la génération de la vidéo ; cette étape consiste principalement à ajouter deux types de sons : la musique de fond et les effets sonores ambiantaux.

La musique d'ambiance détermine l'ambiance globale ; réduisez le volume à moins de 30 % par rapport à la voix afin de ne pas la couvrir.

Étape 4 : Ajouter des sous-titres

Utilisez la fonction « Sous-titres intelligents » de JianYing pour reconnaître automatiquement les dialogues. Après la reconnaissance, vérifiez les fautes d'orthographe et uniformisez la police et la position. Pour les commentaires ou les monologues intérieurs, il est recommandé de les distinguer des dialogues normaux à l'aide d'un style différent, comme l'italique ou une couleur différente.

Cinq : De l’outil à l’expression : ce que les vidéos AI ont vraiment changé

Dans l'article précédent, « GPT Image 2.0 renforce Seedance 2.0 : tout le monde peut tourner un film de Hollywood », nous avons estimé qu'à l'ère de l'IA, les barrières à la création de vidéos ont été abaissées, et que tout le monde pourra désormais produire des blockbusters de Hollywood.

Mais un faible seuil d'entrée ne signifie pas que vous pouvez y arriver.

Les outils sont tous publics, les tutoriels sont partout, mais la plupart des gens bloquent au même endroit : ils n'ont jamais effectué une exécution complète.

Cet article de Biteye vous a guidé pas à pas, depuis une idée floue jusqu'à la création d'une vidéo complète.

Autrefois, ce processus nécessitait un ensemble complet de spécialisations : scénariste, storyboard, artiste, photographe, monteur, chaque étape représentant une barrière.

Et maintenant, ces étapes n'ont pas disparu, elles ont simplement été compressées dans un seul processus.

Cela signifie un changement plus fondamental : les vidéos ne sont plus le produit de la « capacité de production », mais commencent à devenir le produit de la « capacité d'expression ».