Autor: Equipe de conteúdo Changan I Biteye
Uma pessoa que nunca editou um vídeo pode criar um curta-metragem de IA com enredo, diálogos e cortes de câmera?
Sim, e todo o processo leva menos de meio dia.
Este artigo ensina a partir de: criar uma história → dividir em cenas → gerar vídeo → editar o filme.
Nenhuma experiência necessária. Siga os passos uma vez e você terá um curta-metragem de IA completo.
I. Da ideia à história: vídeos de IA não são gerados por apenas um prompt
Muitas pessoas, ao começarem a criar vídeos de IA, abrem o Jimeng e ficam olhando para a caixa de entrada, sem saber o que escrever. Digitam algumas palavras, o resultado gerado é muito diferente do que imaginavam, e começam a duvidar se a ferramenta não é boa ou se elas não sabem escrever prompts.
Por exemplo, “Quero fazer uma história sobre uma pequena discípula do Biteye que renasce no mundo das criptomoedas como uma grande figura”, essa é uma ideia, não uma história.
Uma ideia é uma direção, que lhe diz aproximadamente o que fazer. Uma história é uma estrutura, que lhe diz exatamente o que filmar em cada cena. Entre a ideia e a história, há um trabalho a ser feito, e esse trabalho é o planejamento do roteiro.
A maneira mais simples é abrir qualquer LLM e dizer diretamente a ele a ideia vaga que você tem na cabeça, deixando que ele ajude a desenvolver a história. Você não precisa entender todos os detalhes sozinho — basta fornecer uma direção, e o resto pode ser deduzido juntamente com ele.
Após definir a narrativa, não divida imediatamente em cenas; em vez disso, divida-a em alguns grandes segmentos, conforme o ritmo da história, garantindo que cada segmento tenha claramente um evento central. Este passo serve para controlar o ritmo geral, evitando que alguma parte seja muito lenta ou muito apressada.
O vídeo mais longo do Ji Meng tem 15 segundos; na prática, vídeos abaixo de 12 segundos são os mais estáveis e apresentam a menor probabilidade de problemas na imagem. Um vídeo final de 1 minuto, calculando-se uma média de 10 segundos por trecho, requer aproximadamente 5 trechos.
Dividimos nossa história em cinco parágrafos:
Parágrafo um: Na abertura, a tarefa principal é apresentar o cenário e os personagens.
Parágrafo dois: Viajar, a tarefa principal é apresentar a linha do tempo.
Parágrafo três: Mostrar a transformação do personagem da confusão à clareza.
Calcule a riqueza e leve as emoções ao clímax.
Parágrafo cinco: Concluir a reversão, fechando o ciclo com a abertura.

Após a confirmação dos parágrafos, divida cada parágrafo em descrições de cenas específicas. Para cada cena, descreva quatro elementos: sujeito da cena, localização, o que está fazendo, ângulo da câmera. Não descreva movimento nas cenas, apenas instantes estáticos.
Copie o roteiro do parágrafo um na caixa de bate-papo de IA, digite “Ajude-me a gerar descrições de cenas com base no roteiro do cenário um” e obtenha o seguinte resultado👇

II. Da história à imagem: primeiro defina os personagens, cenas e storyboards
Este capítulo é o mais crucial de todo o processo; a qualidade das imagens que você gerar aqui determina diretamente o limite superior da qualidade final do vídeo.
Faça primeiro as vistas ortogonais, fixe seu personagem principal
Antes de gerar qualquer storyboard, a primeira coisa é criar as vistas tridimensionais do personagem principal.
As três vistas são três imagens do mesmo personagem: frontal, lateral e posterior, com o objetivo de fixar sua aparência, para que, em qualquer cenário gerado posteriormente, se possa referenciar essas três imagens para manter a consistência do personagem.
Se você pular este passo e gerar diretamente os storyboards, perceberá que o personagem gerado a cada vez é diferente—o penteado muda, o formato do rosto muda—e o vídeo simplesmente não poderá ser concluído.
Abra o ChatGPT/Seedream e digite na caixa de diálogo:
Gere uma vista em três projeções da Biteye Little Sister
A IA gerará uma imagem com três ângulos da mesma pessoa. Se a pessoa gerada diferir muito do que você deseja, você pode carregar uma imagem de referência.
Após estar satisfeito com as três vistas, faça o download desta imagem; em cada geração futura de vídeo, faça o upload dela novamente como referência.

Faça novamente a imagem de referência de cenário, fixe seu fundo
Após a definição do papel, use o mesmo raciocínio para gerar primeiro uma imagem de referência do seu cenário; digite no chat: "Ajude-me a gerar uma imagem de um escritório"

Antes de começar a gerar os storyboards, é necessário entender um conceito básico: o plano é a unidade mínima de expressão em um vídeo.
A câmera também fala; diferentes enquadramentos transmitem informações distintas. Os enquadramentos mais comuns são os seguintes:
Plano geral: fornece informações, permitindo que o público saiba onde ocorre a cena e quais personagens estão presentes.
Plano médio: utilizado para avançar a trama, permitindo ver claramente os movimentos e expressões faciais; é o plano mais usado na narrativa.
Close-up: Capturing emotion, filming only the face, hands, or a key prop, magnifying details to deliver a powerful emotional impact to the audience.
Após compreender um único plano, é necessário subir um nível: um vídeo não é um único plano, mas sim o resultado de múltiplos planos combinados de acordo com um ritmo.
Na produção real, geralmente usamos a grade 4x4 e a grade 9x9 para organizar a estrutura de cenas de um vídeo — ou seja, dispor 4 ou 9 cenas em um único vídeo para completar uma expressão completa.
A escolha entre grade 4x4 e grade 9x9 é, em essência, um controle de ritmo:
Cenas de ritmo lento: como a introdução do cenário ou o fechamento emocional, um quadro 4x4 é suficiente — quatro planos oferecem espaço suficiente para cada imagem respirar.
Sequências rápidas: por exemplo, no clímax de uma luta, os planos precisam ser cortados rapidamente para criar tensão; nesse caso, usar uma grade 3x3 com nove planos comprimidos em um único trecho de vídeo produz um efeito completamente diferente.
Entendida a câmera e o ritmo, pode-se começar a produção real: transformar a história abstrata em imagens concretas.
Após preparar as vistas tridimensionais do personagem e as imagens de referência da cena, o próximo passo é transformar cada descrição de sequência escrita anteriormente em uma imagem visualizada. A razão é simples: a IA é mais habilidosa em lidar com «quadros individuais definidos» do que com «processos contínuos em mudança», o que também reduz significativamente a taxa de aleatoriedade.
A maneira específica é:
Gere um plano por vez: faça o upload da vista tridimensional do personagem e das imagens de referência do cenário correspondente na conversa do ChatGPT, depois insira o prompt de geração do storyboard.
Ajude-me a gerar uma imagem de storyboard em quadrante com base no resumo da história + descrição das cenas (incluindo as descrições de cena geradas anteriormente pela IA), juntamente com as imagens da cena e dos personagens.
O modelo dividirá esta cena em quatro quadros com base nas informações de storyboard fornecidas, garantindo a consistência dos personagens e do cenário, com o seguinte efeito:

💡 Dicas rápidas: existem alguns armadilhas comuns em text-to-image; saber antecipadamente pode economizar muitas tentativas:
Para gerar uma cena de uma pessoa segurando um celular jogando, a tela do celular será automaticamente virada para o público. A lógica da IA é tornar o “conteúdo legível”, transformando o jogo em uma fonte de poluição da imagem. A abordagem correta é: “segurar o celular horizontalmente com as duas mãos, a tela voltada para o rosto da pessoa e a parte traseira do celular voltada para a câmera”.
Termos profissionais fazem o AI associar um conjunto inteiro de cenas: escrever "enfermeira" faz o AI associar hospital, escrever "cozinheiro" faz o AI associar cozinha. A abordagem correta é: descreva apenas a roupa que você realmente deseja, sem mencionar o nome da profissão.
Imagens geradas por texto só podem criar imagens estáticas; "virar a cabeça" não tem um estado visual correspondente. A abordagem correta é: descrever apenas o que existe neste quadro.

Três: Da imagem ao vídeo: os prompts devem descrever ações, não reescrever cenas.
As cenas já estão prontas; agora vamos transformá-las em um vídeo animado.
🌟 Registre-se e sonhe
Abra o navegador e pesquise por "Ji Meng AI", acesse o site oficial. Clique em entrar no canto superior direito e registre-se com sua conta Douyin ou número de telefone; no interior da China, o acesso é direto.
Novos usuários podem gerar gratuitamente um vídeo de 15 s. Se precisar de uma assinatura inicial, a pequena irmã Biteye também comparou os preços do Seedance 2.0 em várias plataformas; para mais detalhes, veja: “Guia para assinar o Seedance 2.0 ao menor custo da rede!”
🌟 Como escrever prompts para vídeos?
Este é o ponto mais importante deste passo e também o mais comum de ser errado por iniciantes.
Primeiro, coloque todas as imagens de referência: o Ji Meng suporta o upload simultâneo de múltiplas imagens de referência; basta arrastar as imagens diretamente para a caixa de bate-papo. Arraste todas as suas mídias preparadas no capítulo anterior — imagens de referência do personagem em três vistas, imagens de cenário, quadros em grade 4x4 ou 9x9 — de uma só vez. O Ji Meng integrará as informações dessas imagens para gerar o vídeo.
Muitos iniciantes cometem o erro de descrever novamente o que está na imagem. O sonho já consegue ver a imagem que você enviou, não precisa que você diga novamente o que está na tela.
A instrução deve descrever: o que está se movendo na cena, como está se movendo, se a câmera está em movimento, e o que acontece em cada período de tempo.
Siga o modelo abaixo, cada linha corresponde a um momento do vídeo:
Use o storyboard acima como referência para gerar um vídeo.
[segundo inicial ao segundo final], [enquadramento], [movimento da câmera], [personagem ou elemento principal]+[ação específica], efeito sonoro: [descrição do som].

🌟 A descrição de voz é a parte mais frequentemente ignorada por iniciantes; se o vídeo tiver diálogos, apenas escrever “voz” não é suficiente, pois o modelo gerará aleatoriamente uma voz como referência. Para garantir consistência na voz do personagem entre vários vídeos, existem dois métodos:
1️⃣ Use the audio from the first paragraph as a reference
Gere primeiro o primeiro vídeo; após estar satisfeito com o resultado, exporte separadamente o áudio desse vídeo. Em cada geração subsequente, faça o upload desse áudio como referência sonora, permitindo que o sistema utilize essa timbre para gerar a voz nos próximos segmentos, garantindo consistência vocal.
2️⃣ Use Fish Audio to find reference tones
Abra o Fish Audio, busque vozes que correspondam à personalidade do personagem, ouça um trecho e faça o download como áudio de referência. Use sempre este áudio de referência para gerar cada segmento do vídeo, mantendo a consistência sonora em todo o conteúdo.
🌟Use pontuação para controlar a entonação da voz da IA
Escreva diálogos para modelos de voz de IA; não basta apenas inserir texto. A mesma frase, com pontuação diferente, pode produzir tons completamente distintos.
A lógica central é: a pontuação controla as pausas, e as pausas determinam a emoção.
…… Os reticências interrompem a voz, mas mantêm o fôlego, sendo ideais para estados de reflexão, hesitação ou fala incompleta.
...! Usado em combinação, é uma explosão súbita após a contenção.
(O conteúdo entre parênteses é reduzido automaticamente em volume, tornando-se um sussurro, adequado para monólogos internos e fala consigo mesmo.)
*Conteúdo* As palavras cercadas por asteriscos ficarão mais baixas, mais lentas e mais pesadas, para enfatizar informações importantes.
[] Escreva instruções entre colchetes, não diálogos, como [inspire profundamente], [pausa de 1 segundo]; o modelo executará a ação, não a pronunciará.
💡Dicas rápidas:
A IA não tem consciência de direção e frequentemente não consegue distinguir esquerda de direita, precisando de um "gráfico de referência de relação espacial" para indicar como a pessoa está se movendo, conforme mostrado na Figura 1. Há também um método simples: use setas para descrever a trajetória do movimento da pessoa e, por fim, adicione "apague as setas".
Escreva devagar, não rápido. O modelo processa movimentos lentos muito mais estávelmente do que movimentos rápidos. Para cenas de ritmo acelerado, priorize o uso da velocidade de edição em vez de fazer o modelo gerar movimentos rápidos.
Carregue uma imagem de referência para cada vídeo; não carregue apenas uma vez. O modelo não tem memória entre segmentos; sem a imagem de referência, a aparência do personagem desviará.

Quatro: Do fragmento ao produto final: a edição determina a qualidade final do vídeo
A edição e a pós-produção são o passo final que dá o toque final a todo o processo; cada trecho de material gerado anteriormente é independente, com possíveis diferenças de cor, ritmo descontínuo e sons dispersos, e o papel da edição é unir esses fragmentos em uma história coesa.
Após adicionar música ao vídeo, o humor do público é mais bem estimulado; com legendas, os diálogos ficam mais claros. O mesmo material, quando bem editado ou mal editado, pode apresentar uma diferença de uma ordem de grandeza no resultado final.
O processo tem quatro etapas: organizar os materiais → uniformizar a paleta de cores → adicionar som → adicionar legendas, e por fim, exportar.
Passo 1: Organizar os materiais
Abra o CapCut e arraste todos os clipes para a linha do tempo na ordem das cenas. Por enquanto, ignore a cor e o som; confirme a ordem e veja se o ritmo geral está correto, cortando partes excessivas dos clipes mais longos nesta etapa.
Passo 2: Uniformizar a paleta de cores
Os fragmentos gerados em diferentes momentos podem ter ligeiras diferenças na temperatura de cor e brilho, o que pode parecer desconexo quando colocados juntos. Solução: selecione todos os fragmentos, adicione um filtro geral na opção "Ajustar"; use uma tonalidade azul fria para a cena um e altere para uma tonalidade amarela quente a partir da cena dois, bastando manter a consistência de tom dentro de cada cena.
Passo 3: Adicione música de fundo e efeitos sonoros
As vozes já foram processadas durante a geração do vídeo; esta etapa visa adicionar dois tipos de som: música de fundo e efeitos sonoros ambientais.
A música de fundo define o tom emocional geral; reduza o volume para abaixo de 30% da fala, não sobrepondo a voz.
Passo 4: Adicionar legendas
Use o recurso "Legendas Inteligentes" do JianYing para reconhecer automaticamente o diálogo. Após o reconhecimento, verifique erros de digitação e padronize a fonte e a posição. Para narrações ou falas em voz alta, sugere-se diferenciá-las do diálogo normal com um estilo distinto, como itálico ou cor diferente.
V. De ferramentas a expressão: o que os vídeos de IA realmente mudaram
No artigo anterior, “GPT Image 2.0 impulsiona o Seedance 2.0: Todos podem filmar blockbusters de Hollywood”, consideramos que na era da IA: o limite para “filmar vídeos” foi reduzido, e todos poderão produzir blockbusters de Hollywood no futuro.
Mas ter um baixo ponto de entrada não significa que você consiga fazer.
As ferramentas são todas públicas, e tutoriais estão por toda parte, mas a maioria das pessoas travam no mesmo ponto: nunca completaram um ciclo inteiro.
Neste artigo, o Biteye já te guiou desde uma ideia vaga até a edição de um vídeo completo.
No passado, esse processo exigia um conjunto completo de especializações profissionais: roteirista, storyboard, arte, fotografia e edição — cada etapa era uma barreira.
E agora, essas etapas não desapareceram, apenas foram comprimidas em um único fluxo.
Isso significa uma mudança mais fundamental: os vídeos já não são mais produto da capacidade de produção, mas começam a se tornar produto da capacidade de expressão.
