Penulis: Pasukan kandungan Changan I Biteye
Bolehkah seseorang yang belum pernah menyunting video menghasilkan video pendek AI yang mempunyai alur cerita, dialog, dan perubahan kamera?
Bisa, dan keseluruhan proses tidak melebihi separuh hari.
Artikel ini mengajar anda bagaimana untuk: mencipta sebuah cerita → membahagikannya kepada adegan → menghasilkan video → menyuntingnya menjadi satu keseluruhan.
Tidak memerlukan sebarang asas, ikut langkah sekali sahaja, anda akan mendapat satu video pendek AI yang lengkap.
Satu: Dari idea kepada cerita: Video AI bukan dihasilkan hanya dengan satu petikan arahan
Banyak orang memulai langkah pertama membuat video AI dengan membuka Jimeng, memandang kotak input tanpa tahu apa yang perlu ditulis. Setelah menaikkan beberapa perkataan, hasil yang dihasilkan sangat berbeza dari yang dibayangkan, lalu mereka mulai meragukan sama ada alat ini tidak berfungsi dengan baik, atau sama ada mereka tidak mampu menulis petunjuk.
Sebagai contoh, "Saya ingin membuat seorang adik perempuan Biteye yang terlahir semula di dunia kripto sebagai tokoh utama", ini adalah satu idea, bukan satu cerita.
Gagasan adalah arah, yang memberitahu anda secara kasar apa yang perlu dilakukan. Cerita adalah struktur, yang memberitahu anda apa yang perlu difilmkan dalam setiap adegan. Dari gagasan ke cerita, terdapat kerja yang perlu dilakukan di tengah-tengah, dan kerja ini ialah perancangan skrip.
Cara paling mudah adalah membuka sebarang LLM, dan beritahu ia secara langsung tentang idea kabur yang ada dalam fikiran anda, biarkan ia membantu memperkembangkan cerita anda. Anda tidak perlu memikirkan semua butiran secara sendiri; anda hanya perlu memberikan satu arah, dan selebihnya boleh dirumuskan bersama dengannya.
Setelah alur cerita ditentukan, jangan terus-menerus memecah adegan; terlebih dahulu bahagikan ia kepada beberapa bahagian besar mengikut ritme naratif, dengan setiap bahagian menetapkan satu perkara utama. Langkah ini bertujuan untuk mengawal ritme keseluruhan, mengelakkan sebahagian terlalu perlahan atau terlalu tergesa-gesa.
Setiap video Dream Clip maksimum 15 saat, tetapi dalam amalan sebenar, di bawah 12 saat adalah paling stabil dengan kebarangkalian masalah gambar paling rendah. Untuk video 1 minit, dengan mengira purata 10 saat setiap klip, diperlukan kira-kira 5 klip.
Kami memotong cerita kami menjadi lima bahagian:
Bahagian satu: Pembukaan, tugas utama ialah menggambarkan latar dan watak.
Paragraf dua: Melintasi, tugas utama ialah menjelaskan garis masa.
Paragraf tiga: Menunjukkan peralihan peranan dari kebingungan ke kesedaran.
Mengira kekayaan, mendorong emosi ke puncak.
Paragraf lima: Selesaikan pembalikan, membentuk penutup yang berpadu dengan pembukaan.

Selepas bahagian ditentukan, pecahkan setiap bahagian kepada deskripsi adegan spesifik. Setiap adegan tulis empat elemen: subjek gambar, lokasi, sedang melakukan apa, sudut pengambilan. Jangan tulis pergerakan dalam senarai adegan, hanya huraikan momen statik.
Salin skrip bahagian satu ke kotak perbualan AI, masukkan “Bantu saya menghasilkan deskripsi adegan berdasarkan skrip bahagian satu”, dan hasilnya adalah seperti berikut👇

Dua: Dari cerita ke gambar: Kenal pasti watak, adegan, dan senario terlebih dahulu
Bahagian ini adalah bahagian paling penting dalam keseluruhan proses, di mana kualiti gambar yang anda hasilkan di sini secara langsung menentukan had kualiti video akhir.
Lakukan tiga pandangan terlebih dahulu, kunci watak utama anda
Sebelum menghasilkan mana-mana gambar storyboard, perkara pertama ialah membuat gambar tiga pandangan untuk watak utama.
Tiga pandangan ialah tiga gambar bagi watak yang sama iaitu dari depan, sisi, dan belakang, dengan tujuan menetapkan bentuk luar watak tersebut, supaya apapun adegan yang dihasilkan seterusnya, ketiga-tiga gambar ini akan menjadi rujukan untuk mengekalkan konsistensi watak.
Jika anda melangkau langkah ini dan terus menghasilkan gambar storyboard, anda akan mendapati watak yang dihasilkan setiap kali berbeza bentuknya—rambut berubah, bentuk muka berubah—dan video ini tidak akan boleh diteruskan.
Buka ChatGPT/Seedream, taip di kotak perbualan:
Buatkan saya gambar tiga pandangan untuk Xiao Shimei Biteye
AI akan menghasilkan satu gambar yang menunjukkan tiga sudut watak yang sama. Jika watak yang dihasilkan berbeza jauh daripada yang anda inginkan, anda boleh muat naik gambar rujukan.
Setelah puas dengan pandangan tiga sisi, muat turun gambar ini, dan setiap kali menghasilkan video seterusnya, muat naik semula gambar ini sebagai rujukan.

Buat gambar rujukan adegan lagi, kunci latar belakang anda
Selepas menentukan peranan, gunakan logik yang sama dan hasilkan gambar rujukan terpisah untuk adegan anda, taip dalam kotak dialog: "Bantu saya hasilkan gambar pejabat"

Sebelum memulakan penghasilan gambar storyboard, anda perlu memahami konsep asas: shot adalah unit ekspresi paling kecil dalam video.
Kamera juga boleh berbicara; jenis bidikan yang berbeza membawa maklumat yang berbeza. Jenis bidikan biasa termasuk yang berikut:
Wide shot: Provides context; the audience learns from the wide shot where the scene is set and which characters are present.
Medium shot: Digunakan untuk mendorong alur cerita, memperjelas gerakan dan ekspresi, dan merupakan jenis bidang yang paling sering digunakan dalam bercerita.
Close-up: Membuat emosi, hanya rakam muka, tangan, atau alat penting tertentu, perbesar butiran halus untuk memberi kesan emosi yang kuat kepada penonton.
Setelah memahami satu adegan, anda perlu naik satu tahap lagi: satu video bukan sekadar satu adegan, tetapi hasil gabungan beberapa adegan yang disusun mengikut ritma.
Dalam pembuatan sebenarnya, kita biasanya menggunakan "grid 4 petak" dan "grid 9 petak" untuk mengatur struktur shot dalam satu video—iaitu, mengatur 4 atau 9 shot dalam satu video untuk menyampaikan satu ungkapan yang lengkap.
Pilihan petak 4 dan petak 9 pada dasarnya adalah pengawasan ritme:
Bahagian dengan ritme perlahan: seperti pengenalan suasana di awal atau penutup emosi di akhir, cukup gunakan grid empat petak; empat adegan memberi ruang yang mencukupi agar setiap gambar dapat bernafas.
Bahagian dengan ritma pantas: seperti adegan pertarungan puncak, di mana kamera perlu beralih dengan cepat untuk mencipta rasa tegang; pada masa ini, menggunakan grid sembilan petak, sembilan adegan ditekan ke dalam satu video, hasil potongan akan benar-benar berbeza.
Setelah memahami kamera dan ritma, anda boleh mula masuk ke proses penghasilan sebenar: mengubah cerita abstrak menjadi gambaran yang konkret.
Setelah gambar tiga sudut watak dan gambar rujukan adegan disediakan, langkah seterusnya ialah mengubah setiap perihalan adegan yang telah ditulis sebelum ini menjadi gambar visual satu per satu. Sebabnya mudah: AI lebih mahir mengendalikan «bingkai tunggal yang ditentukan» berbanding «proses perubahan berterusan», dan juga dapat mengurangkan kadar kegagalan secara besar-besaran.
Cara tepatnya adalah:
Setiap kali menghasilkan satu adegan, muat naik gambar tiga pandangan watak dan gambar rujukan adegan yang sepadan ke dalam perbualan ChatGPT, kemudian masukkan petua penghasilan gambar adegan yang baru dibahagikan.
Bantu saya menghasilkan gambar panel empat petak berdasarkan ringkasan cerita + huraian panel (sertakan kata-kata panel yang dihasilkan sebelumnya oleh AI), sertakan gambar latar dan gambar watak
Model akan menguraikan adegan ini menjadi empat adegan berdasarkan maklumat senario yang anda berikan, serta memastikan konsistensi watak dan latar, kesannya seperti berikut:

💡 Petua kecil, terdapat beberapa perangkap umum dalam penghasilan gambar dari teks; mengetahuiinya terlebih dahulu boleh menghemat banyak percubaan:
Ingin menghasilkan adegan seseorang memegang telefon pintar untuk bermain permainan, skrin telefon akan berpusing secara automatik ke arah penonton. Logik AI adalah untuk menjadikan "kandungan boleh dibaca", menjadikan permainan sebagai sumber pencemar gambar. Cara yang betul ialah: "pegang telefon secara mendatar dengan kedua-dua tangan, skrin menghadap muka orang tersebut, dan belakang telefon menghadap kamera."
Nombor profesional akan membuat AI mengaitkan satu set adegan penuh: menulis "jururawat", AI akan mengaitkan hospital; menulis "jurumasak", AI akan mengaitkan dapur. Cara yang betul adalah: hanya menggambarkan pakaian yang anda benar-benar inginkan, tanpa menyebut nama profesional.
Gambar yang dihasilkan dari teks hanya boleh menghasilkan gambar statik, "sedang berpusing kepala" tidak mempunyai keadaan visual yang sepadan. Cara yang betul adalah: hanya huraikan perkara yang wujud dalam bingkai ini.

Tiga: Dari gambar ke video: tulis petunjuk tindakan, jangan tulis semula adegan
Semua storyboard telah disediakan, sekarang kita perlu menjadikannya video yang bergerak.
🌟 Daftar dan impikan
Buka pelayar, cari 「Ji Meng AI」, masuk ke laman web rasmi. Klik log masuk di sudut kanan atas, anda boleh mendaftar menggunakan akaun Douyin atau nombor telefon, akses secara langsung di dalam negara.
Pengguna baru boleh menjana video 15 saat secara percuma. Jika anda memerlukan keahlian permulaan, Biteye Xiao Shimei juga telah membandingkan harga Seedance 2.0 di pelbagai platform secara menyeluruh. Butiran lanjut sila lihat: >>> “Panduan Langganan Seedance 2.0 dengan Kos Paling Rendah di Seluruh Rangkaian!”
🌟 Bagaimana cara menulis petunjuk video?
Ini adalah bahagian paling penting dalam langkah ini, dan juga tempat paling mudah dipalsukan oleh pemula.
Masukkan semua gambar rujukan sekaligus; JiMeng menyokong muat naik banyak gambar rujukan secara serentak, terus seret gambar ke dalam kotak sembang. Seret kesemua bahan yang anda sediakan dalam bab sebelumnya—gambar tiga sudut watak, gambar rujukan adegan, atau gambar storyboard 4 petak atau 9 petak—sekaligus, JiMeng akan menggabungkan maklumat daripada semua gambar ini untuk menghasilkan video.
Banyak pemula di sini membuat kesilapan, iaitu mengulangi semula apa yang ada dalam gambar. Mimpi sudah boleh melihat gambar yang anda muat naik, jadi tidak perlu anda memberitahunya apa yang ada dalam gambar itu.
Petunjuk harus menulis: Apa yang bergerak dalam adegan, bagaimana ia bergerak, sama ada kamera sedang bergerak, dan apa yang berlaku dalam setiap tempoh masa.
Ikuti templat berikut, setiap baris berkaitan dengan satu tempoh dalam video:
Bantu saya merujuk kepada gambar storyboard di atas, hasilkan satu video.
[detik bermula hingga detik akhir], [jenis adegan], [gaya kamera], [watak atau subjek] + [tindakan spesifik], efek suara: [perihal bunyi].

🌟 Perihal suara adalah bahagian yang paling sering diabaikan oleh pengguna baru; jika video tersebut mempunyai dialog, menulis hanya “suara berbicara” tidak mencukupi, kerana model akan menghasilkan suara secara rawak sebagai rujukan. Untuk memastikan suara watak konsisten di antara beberapa video, terdapat dua kaedah:
1️⃣ Gunakan audio bahagian pertama sebagai rujukan
Hasilkan video pertama terlebih dahulu, dan apabila anda puas dengan hasilnya, ekstrak audio daripada video tersebut secara berasingan. Untuk setiap bahagian seterusnya yang dihasilkan, muat naik audio ini sebagai rujukan suara, supaya AI akan merujuk kepada nada suara ini untuk menghasilkan suara bagi bahagian-bahagian seterusnya, memastikan konsistensi suara.
2️⃣ Cari warna suara rujukan menggunakan Fish Audio
Buka Fish Audio, cari suara yang sesuai dengan气质 peranan, dengar ujian, kemudian muat turun satu bahagian sebagai audio rujukan. Gunakan audio rujukan ini secara seragam untuk setiap video yang dihasilkan, memastikan keselarasan suara keseluruhan.
🌟 Gunakan tanda baca untuk mengawal nada suara AI
Tulis dialog untuk model suara AI, bukan sekadar memasukkan teks dan selesai. Satu ayat yang sama, tanda baca berbeza, nada yang dihasilkan boleh benar-benar berbeza.
Logik utama ialah: tanda baca mengawal jeda, jeda menentukan perasaan.
…… Tanda elipsis memutus suara tetapi mempertahankan nafas, sesuai untuk keadaan berfikir, ragu-ragu, atau perkataan yang tidak selesai.
……! Penggunaan kombinasi adalah ledakan tiba-tiba selepas penekanan.
() Isi dalam tanda kurung akan secara automatik mengurangkan volume menjadi bisikan, sesuai untuk monolog dalaman dan berbual sendiri.
*Kandungan* Kata yang dikelilingi oleh tanda bintang akan menjadi lebih rendah, lebih perlahan, dan lebih berat, digunakan untuk menekankan maklumat penting.
[] Tulis arahan di dalam tanda kurung siku, bukan dialog, seperti [tarik nafas dalam-dalam], [berhenti selama 1 saat], model akan melaksanakan tindakan, bukan mengucapkannya.
💡Petua Kecil:
AI tidak mempunyai kesedaran arah dan sering keliru antara kiri dan kanan, perlu dibuatkan "gambar rujukan hubungan posisi" untuk memberitahu AI bagaimana tokoh bergerak, seperti dalam Rajah 1. Terdapat juga kaedah mudah: gunakan anak panah untuk menggambarkan trajektori pergerakan tokoh, dan tambahkan "hapuskan anak panah" pada akhirnya.
Tulis perlahan, jangan tulis cepat. Model mengendalikan gerakan perlahan jauh lebih stabil daripada gerakan cepat. Untuk adegan yang memerlukan ritme cepat, utamakan menggunakan kecepatan suntingan, bukan meminta model menghasilkan gerakan cepat.
Setiap video perlu diunggah dengan gambar rujukan, jangan hanya mengunggah sekali sahaja. Model tidak mempunyai ingatan merentas bahagian; tanpa mengunggah gambar rujukan, penampilan watak akan menyimpang.

Empat: Dari potongan ke keseluruhan: Penyuntingan menentukan kualiti akhir video
Pengeditan dan pascaproduksi adalah langkah yang memperkaya keseluruhan proses; setiap bahan yang dihasilkan sebelumnya adalah terpisah, warna mungkin tidak seragam, ritme mungkin tidak lancar, dan suara pun tersebar, tugas pengeditan adalah menyatukan serpihan-serpihan ini menjadi satu cerita yang utuh.
Setelah video ditambahkan muzik, ia mampu meningkatkan emosi penonton; dengan penambahan subtitle, dialog menjadi lebih jelas. Bahan yang sama, apabila diedit dengan baik atau buruk, boleh menghasilkan perbezaan sebanyak satu tahap dalam hasil akhir.
Langkah-langkahnya terdiri daripada empat bahagian: menyusun bahan → menyamakan warna → menambah suara → menambah subtitle, kemudian eksport.
Langkah pertama: Susun bahan
Buka CapCut, seret semua klip mengikut urutan adegan ke garis masa. Jangan ambil kira warna dan suara terlebih dahulu, pastikan urutannya betul, tinjau keseluruhan ritme untuk melihat adakah masalah, dan potong bahagian yang berlebihan pada klip yang terlalu panjang pada langkah ini.
Langkah Kedua: Seragamkan warna
Fragmen yang dihasilkan pada masa yang berbeza mungkin mempunyai perbezaan halus dalam suhu warna dan kecerahan, yang akan kelihatan terpisah apabila diletakkan bersama. Cara mengatasinya: Pilih semua fragmen, tambahkan satu penapis secara keseluruhan di dalam "Penyesuaian", gunakan nada biru sejuk untuk adegan pertama, dan tukar kepada nada kuning hangat untuk adegan kedua dan seterusnya—cukup hanya mengekalkan keseragaman warna di dalam setiap adegan.
Langkah ketiga: Tambahkan muzik latar dan kesan suara
Suara dialog telah diproses semasa penghasilan video, langkah ini terutama menambah dua jenis suara: muzik latar dan kesan bunyi persekitaran.
Muzik latar menentukan nada emosi keseluruhan, volume dikurangkan kepada kurang daripada 30% dialog, jangan menutupi suara.
Langkah keempat: Tambahkan subtitle
Gunakan "Subtitle Pintar" di JianYing untuk mengenal secara automatik dialog, selepas pengenalan, semak semula kesalahan ejaan, dan seragamkan fon serta kedudukan. Untuk narasi atau dialog yang berbicara sendiri, cadangkan untuk membezakan dengan gaya yang berbeza daripada dialog biasa, seperti condong atau warna yang berbeza.
V. Dari Alat ke Ekspresi: Apa yang Sebenarnya Diubah oleh Video AI
Dalam artikel sebelumnya, "GPT Image 2.0 Menguatkan Seedance 2.0: Setiap Orang Boleh Membuat Filem Hollywood", kami berpendapat bahawa di era AI: "menghasilkan video" telah menurunkan rintangan, dan pada masa depan setiap orang akan mampu membuat filem Hollywood.
Tetapi tahap yang rendah tidak bermakna anda boleh melakukannya.
Semua alat adalah terbuka, dan tutorial pun tersedia di mana-mana, tetapi kebanyakan orang terhenti di tempat yang sama: tidak pernah menyelesaikan satu siklus penuh.
Artikel ini telah membimbing anda melalui Biteye dari satu idea kabur kepada satu filem lengkap.
Dahulu, proses ini memerlukan satu set spesialisasi profesional: penulis skrip, storyboard, seni, penggambaran, dan penyuntingan, setiap peringkat merupakan satu penghalang.
Sekarang, bahagian-bahagian ini tidak hilang, hanya dipadatkan ke dalam satu proses.
Ini bermakna perubahan yang lebih asas: video bukan lagi hasil daripada «keupayaan penghasilan», tetapi mulai menjadi hasil daripada «keupayaan pernyataan».
