Cómo crear un corto dramático viral usando Seedance 2.0 y GPT 2.0

Autor: Equipo de contenido de Changan I Biteye

¿Puede alguien que nunca ha editado un video crear un cortometraje de IA con trama, diálogos y cambios de plano?

Sí, y todo el proceso toma menos de medio día.

Este artículo te enseña a partir de: idear una historia → dividirla en planos → generar el video → editar el resultado final.

No se requiere ninguna experiencia; sigue los pasos una vez y obtendrás un video corto de IA completo.

I. De la idea a la historia: los videos de IA no se generan con una sola instrucción

Muchas personas, al comenzar con videos de IA, abren Ji Meng y se quedan mirando el cuadro de entrada, sin saber qué escribir. Escriben unas pocas palabras, generan el resultado y este se aleja mucho de lo que imaginaban, comenzando luego a dudar si la herramienta no funciona bien o si no saben redactar prompts.

Por ejemplo, «Quiero hacer una historia sobre una pequeña hermana de Biteye que renace en el mundo de las criptomonedas como un gran líder», esta es una idea, no una historia.

La idea es una dirección, te dice aproximadamente qué hacer. La historia es una estructura, te dice qué filmar en cada escena. Entre la idea y la historia hay un trabajo que realizar, y ese trabajo es la planificación del guion.

La forma más sencilla es abrir cualquier LLM y decirle directamente la idea vaga que tienes en la cabeza, para que te ayude a desarrollar la historia. No necesitas entender todos los detalles por ti mismo; solo necesitas proporcionar una dirección, y el resto puedes deducirlo junto con él.

Una vez determinada la trama, no dividas directamente los planos; primero, corta la historia en varios segmentos grandes según el ritmo narrativo, asegurando que cada segmento tenga claramente un evento central. Este paso sirve para controlar el ritmo general y evitar que alguna sección sea demasiado lenta o demasiado apresurada.

El video individual de Ji Meng tiene una duración máxima de 15 segundos; en la práctica, los videos de menos de 12 segundos son los más estables y tienen la menor probabilidad de problemas visuales. Para un video final de 1 minuto, calculando un promedio de 10 segundos por fragmento, se necesitan aproximadamente 5 fragmentos.

Dividimos nuestra historia en cinco párrafos:

Párrafo uno: Al inicio, la tarea principal es presentar el escenario y los personajes.
Párrafo dos: Viajar, la tarea principal es explicar la línea de tiempo.
Párrafo tres: Mostrar la transformación del personaje desde la confusión hasta la claridad.
Calcula tu riqueza y lleva las emociones al clímax.
Párrafo cinco: Completa la reversión y cierra el círculo con la apertura.

Seedance 2.0

Una vez determinado el párrafo, divide cada párrafo en descripciones de planos específicos. Para cada plano, escribe cuatro elementos: sujeto visual, ubicación, qué está haciendo, ángulo de cámara. No incluyas movimiento en los planos; solo describe instantes estáticos.

Copia el guion del párrafo uno en el cuadro de chat de IA, ingresa "Ayúdame a generar descripciones de planos según el guion del escenario uno", y obtén el siguiente resultado👇

Seedance 2.0

II. De la historia a la imagen: primero fija los personajes, escenarios y planos

Este capítulo es el más crucial de todo el proceso; la calidad de las imágenes que generes aquí determinará directamente el límite superior de la calidad del video final.

Haz primero las vistas en tres dimensiones, fija a tu protagonista

Antes de generar cualquier storyboard, lo primero es crear las vistas de frente, lado y atrás del personaje principal.

Las tres vistas son tres imágenes del mismo personaje: frontal, lateral y posterior, con el objetivo de fijar su apariencia física; así, independientemente del escenario que se genere posteriormente, se podrán referir a estas tres imágenes para mantener la coherencia del personaje.

Si omites este paso y generas directamente los storyboards, notarás que el personaje cambia de apariencia en cada generación: el peinado varía, la forma de la cara cambia, y no podrás continuar con este video.

Abra ChatGPT/Seedream y escriba en el cuadro de diálogo:

Genera una vista en tres dimensiones de la hermanita pequeña de Biteye

La IA generará una imagen con tres ángulos de la misma persona. Si la persona generada difiere mucho de lo que deseas, puedes subir una imagen de referencia.

Una vez que estés satisfecho con las tres vistas, descarga esta imagen y sube de nuevo cada vez que generes un video como referencia.

Seedance 2.0

Vuelve a crear la imagen de referencia del escenario, fija tu fondo.

Una vez determinado el personaje, utiliza el mismo lógica para generar primero una imagen de referencia de tu escenario; ingresa en el cuadro de diálogo: "Ayúdame a generar una imagen de una oficina"

Seedance 2.0

Antes de comenzar a generar los storyboards, es necesario comprender un concepto básico: el plano es la unidad mínima de expresión en un video.

La cámara también habla; diferentes planos transmiten información distinta. Los planos comunes son los siguientes:

Plano general: proporciona información; el espectador sabe a través del plano general dónde se encuentra la escena y qué personajes están presentes.
Plano medio: Utilizado para avanzar la trama, permite ver claramente los movimientos y las expresiones faciales, y es el encuadre más utilizado en la narrativa.
Close-up: Capturing emotion, filming only the face, hands, or a key prop, magnifying details to deliver a powerful emotional impact to the viewer.

Después de comprender un solo plano, aún hay que elevarse un nivel más: un video no es un solo plano, sino el resultado de múltiples planos combinados según un ritmo.

En la producción real, comúnmente utilizamos la cuadrícula de 4 y la cuadrícula de 9 para organizar la estructura de tomas de un video: es decir, distribuir 4 o 9 tomas dentro de un video para lograr una expresión completa.

La elección entre una cuadrícula de 4 y una de 9 es, en esencia, un control del ritmo:

Segmentos de ritmo lento: como la introducción que establece el entorno o el cierre emocional, basta con una cuadrícula de cuatro, ya que cuatro planos proporcionan suficiente espacio para que cada imagen respire.
Párrafos de ritmo acelerado: por ejemplo, en escenas de acción intensas, se requieren cortes rápidos y frecuentes para generar tensión; en esos casos, usar una cuadrícula de nueve cuadros, con nueve planos comprimidos en un solo segmento de video, produce una sensación completamente distinta al editar.

Una vez comprendidos el encuadre y el ritmo, se puede comenzar con la producción real: convertir la historia abstracta en imágenes concretas.

Una vez que se hayan preparado las vistas en tres dimensiones del personaje y las imágenes de referencia de la escena, el siguiente paso es convertir cada una de las descripciones de los planos escritas anteriormente en imágenes visuales. La razón es sencilla: la IA maneja mejor «cuadros individuales definidos» en lugar de «procesos en continuo cambio», lo que también reduce significativamente la tasa de obtención aleatoria.

La forma específica de hacerlo es:

Genera un plano cada vez, sube primero la vista en tres dimensiones del personaje y las imágenes de referencia del escenario al chat de ChatGPT, luego ingresa el prompt de generación del plano anterior.

Ayúdame a generar una imagen de cuadrícula de cuatro paneles basada en el resumen de la historia y la descripción de los planos (incluyendo los términos de plano generados previamente por IA), junto con la imagen de la escena y la imagen del personaje.

El modelo dividirá esta escena en cuatro cuadros según la información de storyboard que proporciones, asegurando la coherencia de los personajes y el escenario, con el siguiente resultado:

Seedance 2.0

💡 Consejos rápidos: hay algunos errores comunes en la generación de imágenes con texto; conocerlos de antemano te ahorrará muchos intentos:

Para generar una escena de una persona jugando con un teléfono móvil, la pantalla del teléfono se girará automáticamente hacia el espectador. La lógica de la IA busca hacer que el "contenido sea legible", convirtiendo el juego en una fuente de ruido visual. La forma correcta es: "sostener el teléfono horizontalmente con ambas manos, con la pantalla orientada hacia el rostro de la persona y la parte trasera del teléfono hacia la cámara".
Los términos profesionales hacen que la IA asocie un conjunto completo de escenarios: escribir «enfermera» hace que la IA asocie un hospital, escribir «cocinero» hace que la IA asocie una cocina. El enfoque correcto es: describir solo la ropa que realmente deseas, sin mencionar el nombre de la profesión.
La generación de imágenes a partir de texto solo puede producir imágenes estáticas; "girar la cabeza" no tiene un estado visual correspondiente. La forma correcta es: describir solo lo que existe en este fotograma.

Seedance 2.0

Tres: De la imagen al video: los prompts deben describir acciones, no volver a escribir la imagen

Los storyboards ya están listos; ahora vamos a convertirlos en un video animado.

🌟 Regístrate y sueña

Abre el navegador y busca «JiMeng AI», ingresa al sitio web oficial. Haz clic en Iniciar sesión en la esquina superior derecha; puedes registrarte con tu cuenta de Douyin o con tu número de teléfono. En China continental, puedes acceder directamente.

Los nuevos usuarios pueden generar gratis un video de 15 segundos. Si necesitas una suscripción de miembro, Biteye Xiao Shimei también comparó los precios de Seedance 2.0 en múltiples plataformas; consulta los detalles en: «¡Guía para suscribirte a Seedance 2.0 al menor costo de toda la red!»

🌟 ¿Cómo escribir los prompts para videos?

Este es el punto más importante de este paso y también el más comúnmente erróneo para los principiantes.

Primero, carga todas las imágenes de referencia: Ji Meng admite la carga simultánea de múltiples imágenes de referencia; simplemente arrastra las imágenes al cuadro de chat. Arrastra todos los recursos que preparaste en el capítulo anterior: vistas en tres perspectivas del personaje, imágenes de referencia de escenarios, cuadrículas de 4 o 9 cuadros de storyboard, y Ji Meng generará el video combinando la información de todas estas imágenes.

Aquí muchos principiantes cometen un error: describir nuevamente lo que hay en la imagen. El sueño ya puede ver la imagen que subiste, no necesitas decirle qué hay en la pantalla.

La instrucción debe especificar: qué está moviéndose en la escena, cómo se mueve, si la cámara está en movimiento, y qué ocurre en cada intervalo de tiempo.

Sigue la siguiente plantilla para escribir, cada línea corresponde a un intervalo de tiempo en el video:

Ayúdame a referirme al guion gráfico anterior y generar un video.

[Segundo inicial al segundo final], [plano], [tipo de movimiento de cámara], [personaje o sujeto]+[acción específica], efecto de sonido: [descripción del sonido].

Seedance 2.0

🌟 La descripción de voz es la parte que más fácilmente ignoran los principiantes; si el video tiene diálogos, simplemente escribir «voz» no es suficiente, ya que el modelo generará aleatoriamente una voz como referencia. Para garantizar la coherencia de la voz del personaje en múltiples videos, hay dos métodos:

1️⃣ Usa el audio del primer párrafo como referencia

Genera primero el primer video; una vez que estés satisfecho con el resultado, exporta por separado el audio de este video. Para cada segmento posterior, sube este audio como referencia de voz, para que el sistema utilice este timbre vocal al generar los fragmentos siguientes y garantice la coherencia de la voz.

2️⃣ Busca tonos de referencia con Fish Audio

Abre Fish Audio, busca un sonido que coincida con la personalidad del personaje, escúchalo y descarga un fragmento como audio de referencia. Al generar cada segmento de video, utiliza siempre este audio de referencia para mantener una coherencia sonora en todo el vídeo.

🌟Controla el tono de la voz de IA con puntuación

Escriba diálogos para modelos de voz de IA; no basta con introducir texto. La misma frase, con diferentes signos de puntuación, puede emitirse con un tono completamente distinto.

La lógica principal es: los signos de puntuación controlan las pausas, y las pausas determinan la emoción.

…… Los puntos suspensivos interrumpen la voz pero mantienen el aliento, ideales para estados de reflexión, duda o palabras sin terminar.

……! Usado en combinación, es una explosión repentina tras la contención.

() El contenido dentro de los paréntesis se reduce automáticamente en volumen, convirtiéndose en un susurro, ideal para monólogos internos y habla consigo mismo.

*El contenido* Las palabras rodeadas por asteriscos se volverán más bajas, más lentas y más pesadas, para enfatizar la información clave.

[] Escriba instrucciones entre corchetes, no diálogos, por ejemplo [respira profundamente], [haga una pausa de 1 segundo]; el modelo ejecutará la acción en lugar de decirlo.

💡 Consejos rápidos:

La IA no tiene conciencia espacial y a menudo no distingue entre izquierda y derecha, por lo que se necesita un «diagrama de referencia de relaciones de posición» para indicar cómo se mueve la persona, como se muestra en la figura 1. También existe un método sencillo: utilizar flechas para describir la trayectoria del movimiento de la persona y al final añadir «eliminar las flechas».
Escribe lento, no rápido. El modelo procesa movimientos lentos mucho más establemente que los movimientos rápidos. Para fragmentos de ritmo acelerado, prioriza el uso de la velocidad de corte en lugar de hacer que el modelo genere movimientos rápidos.
Cada video debe subir una imagen de referencia; no subirla solo una vez. El modelo no tiene memoria entre segmentos; sin la imagen de referencia, la apariencia del personaje se desviará.

Seedance 2.0

Cuatro: De fragmentos a película completa: el montaje determina la calidad final del video

El montaje y la postproducción son el paso que da el toque final a todo el proceso; cada fragmento generado previamente es independiente, con posibles diferencias en tono, ritmo desconectado y sonido disperso, y la función del montaje es unir estos fragmentos en una historia coherente.

Después de agregar música al video, se potencia aún más la emoción del espectador; con subtítulos, el diálogo se vuelve más claro. Con los mismos materiales, una edición de calidad puede diferir en un orden de magnitud de una edición deficiente.

El proceso consta de cuatro pasos: organizar los materiales → uniformizar el tono → añadir sonido → añadir subtítulos, y finalmente exportar.

Paso 1: Organizar los materiales

Abre CapCut y arrastra todos los clips en el orden de las escenas al timeline. Por ahora, ignora el color y el sonido; asegúrate de que el orden sea correcto y revisa en conjunto si el ritmo tiene algún problema. Recorta las partes sobrantes de los clips demasiado largos en este paso.

Paso 2: Uniformar el tono

Los fragmentos generados en diferentes momentos pueden tener ligeras diferencias en la temperatura de color y el brillo, lo que los hace parecer desconexos cuando se colocan juntos. Solución: selecciona todos los fragmentos, aplica un filtro general en la opción "Ajustar"; usa un tono azul frío para la escena uno, y cambia a un tono amarillo cálido a partir de la escena dos; basta con mantener la coherencia de tono dentro de cada escena.

Paso 3: Añadir música de fondo y efectos de sonido

Los diálogos ya se han procesado durante la generación del video; este paso principalmente añade dos tipos de sonidos: música de fondo y efectos de entorno.

La música de fondo establece el tono emocional general; reduzca el volumen a menos del 30% respecto al diálogo para no superar la voz.

Paso 4: Agregar subtítulos

Utilice la función "Subtítulos inteligentes" de JianYing para reconocer automáticamente el diálogo. Después del reconocimiento, revise los errores ortográficos y uniformice la fuente y la posición. Para las narraciones o diálogos internos, se recomienda distinguirlos del diálogo normal con un estilo diferente, como cursiva o un color distinto.

V. De herramientas a expresión: ¿Qué ha cambiado realmente el video de IA?

En el artículo anterior, «GPT Image 2.0 impulsa Seedance 2.0: Todos pueden filmar películas de Hollywood», consideramos que en la era de la IA: la barrera para «filmar videos» se ha reducido, y en el futuro todos podrán producir películas de Hollywood.

Pero una baja barrera de entrada no significa que puedas lograrlo.

Las herramientas son públicas y hay tutoriales por todas partes, pero la mayoría se atascan en el mismo punto: nunca han completado todo el proceso una vez.

En este artículo, Biteye te ha guiado desde una idea vaga hasta cortarla hasta convertirla en un video completo.

Anteriormente, este proceso requería un conjunto completo de especializaciones profesionales: guionistas, storyboards, arte, fotografía y edición, cada etapa representando una barrera.

Y ahora, estos pasos no han desaparecido, solo se han comprimido en un solo proceso.

Esto significa un cambio más fundamental: los videos ya no son el producto de la «capacidad productiva», sino que comienzan a ser el producto de la «capacidad de expresión».