如何使用 Seedance 2.0 和 GPT 2.0 創作一部病毒式短劇

作者：Changan I Biteye 內容團隊

一個從沒剪過影片的人，能做出一條有劇情、有台詞、有鏡頭切換的 AI 短影片嗎？

可以，而且整個流程不超過半天。

這篇文章教你從：想一個故事 → 拆成分鏡 → 生成影片 → 剪輯成片。

無需任何基礎，跟著做一遍，你就能獲得一條完整的 AI 短影片。

一、從想法到故事：AI 視頻不是由一句提示詞生成的

很多人製作 AI 影片的第一步是打開即夢，盯著輸入框發呆，不知道該寫什麼。打幾個字，生成的結果與想像中相差甚遠，於是開始懷疑是不是工具不好用，或者是不是自己不會寫提示詞。

例如「我想做一個 Biteye 小師妹重生在幣圈當大佬」，這是一個想法，不是一個故事。

想法是一個方向，它告訴你大概要做什麼。故事是一個結構，它告訴你每一個畫面該拍什麼。從想法到故事，中間有一段工作要做，這段工作就是腳本策劃。

最簡單的方式是打開任何一個 LLM，把你腦中模糊的想法直接告訴它，讓它幫你把故事撐起來。你不需要自己想清楚所有細節，你只需要提供一個方向，剩下的可以和它一起推導。

確定故事線後，不要直接分鏡，先根據敘事節奏將其劃分為幾個大段落，每段明確核心事件是什麼。這一步是為了掌控整體節奏，避免某段過於拖沓或倉促。

即夢單條影片最長 15 秒，實際操作中 12 秒以下最穩定，畫面出問題的機率最低。1 min 的成片，按照每個片段平均 10 秒計算，大概需要 5 個片段。

我們把故事切成五個段落：

段落一：開場，核心任務是交代場景和角色。
Paragraph 2: Time travel, the core task is to establish the timeline.
Paragraph 3: Show the character's transformation from confusion to clarity.
計算財富，將情緒推向高潮。
Paragraph 5: Complete the reversal and form a closed loop with the opening.

Seedance 2.0

段落確定後，將每個段落進一步拆分成具體的鏡頭描述。每個鏡頭寫四個要素：畫面主體、所在位置、正在做什麼、拍攝角度。不要在分鏡裡寫運動，只描述靜止的瞬間。

將段落一的腳本複製到 AI 聊天框中，輸入「幫我根據場景一的腳本，生成分鏡描述」，得到的效果如下👇

Seedance 2.0

二、從故事到畫面：先鎖定角色、場景和分鏡

這一章是整個流程中最核心的一章，你在這裡生成的圖片質量，直接決定最終影片的質量上限。

先做三視圖，鎖定你的主角

在生成任何分鏡圖之前，第一件事是先把主角的三視圖做出來。

三視圖就是同一個角色的正面、側面、背面三張圖，目的是將此人的外形固定下來，後續無論生成什麼場景，都參考這三張圖以保持角色一致。

如果跳過這一步直接生成分鏡圖，你會發現每次生成的角色外貌都不一樣，髮型變了、臉型變了，這支影片就完全無法繼續製作。

打開 ChatGPT/Seedream，在對話框中輸入：

Generate a three-view diagram of Biteye’s junior sister

AI 會生成一張圖，包含同一人物的三個角度，如果生成的人物與你期望的差距較大，可上傳參考圖。

滿意三視圖後，請下載此圖，後續每次生成影片時都需上傳此圖作為參考。

Seedance 2.0

再製作場景參考圖，鎖定你的背景

角色確定之後，同樣的邏輯，先把你的場景單獨生成一張參考圖，對話框輸入「幫我生成一張辦公室的圖片」

Seedance 2.0

在正式開始生成分鏡圖之前，需要先理解一個基礎概念：鏡頭是影片最小的表達單位。

鏡頭也會說話，不同的鏡頭景別傳遞的信息並不相同，常見的景別有以下幾種：

Wide shot: Provides context; the audience learns where the scene is set and which characters are present through the wide shot.
中景：推進劇情、能看清動作和表情，是敘事中最常用的景別。
特寫：製造情緒的畫面，僅拍攝臉部、手部或某個關鍵道具，放大細節，給觀眾強烈的情緒衝擊。

理解單個鏡頭之後，還需要再往上走一層：一條影片不是一個鏡頭，而是多個鏡頭按照節奏組合在一起的結果。

在實際製作中，我們通常會用「四宮格」和「九宮格」來組織一段視頻的鏡頭結構——也就是在一段視頻裡，安排 4 個或 9 個鏡頭完成一次完整表達。

四宮格與九宮格的選擇，本質上是對節奏的控制：

節奏緩慢的段落：例如開場交代環境、結尾情緒收束，使用四宮格就足夠，四個鏡頭已能為每個畫面提供足夠的呼吸空間。
節奏快速的段落：例如打鬥高潮，鏡頭需要密集切換以製造緊張感，此時使用九宮格，將九個鏡頭壓縮在一段影片中，剪輯出來的感覺完全不一樣。

理解了鏡頭和節奏之後，就可以開始進入實際製作：把抽象的故事，變成具體的畫面。

當人物三視圖和場景參考圖都準備好後，接下來要做的，就是將前面寫好的分鏡描述，一張一張轉化為可視化的畫面。原因很簡單：AI 更擅長處理「確定的單幀」，而非「連續變化的過程」，同時也能大幅降低抽卡率。

具體做法是：

每次生成一個鏡頭時，先將角色三視圖和對應的場景參考圖上傳至 ChatGPT 對話中，然後輸入剛剛的分鏡圖生成提示詞。

請根據故事大綱+分鏡描述（附上先前與 AI 生成的分鏡詞），生成一張四宮格分鏡圖，並附上場景圖與人物圖

模型會根據您提供的分鏡資訊，將這段鏡頭拆分成四個畫面，並確保人物與場景的一致性，效果如下：

Seedance 2.0

💡小貼士，文生圖有幾個高頻陷阱，提前了解能省下很多次數：

想生成人物拿手機打遊戲的鏡頭，生成的手機螢幕會自動轉向觀眾。AI 的邏輯是讓「內容可讀」，打遊戲成為圖片的污染源。正確做法是：「雙手橫向持手機，螢幕朝向人物面部，手機背面朝向鏡頭」。
職業名詞會讓 AI 聯想出整套場景：寫「護士」，AI 會聯想出醫院；寫「廚師」，AI 會聯想出廚房。正確做法是：只描述你真正想要的服飾，不提職業名稱。
文生圖只能生成靜止畫面，「正在轉頭」沒有對應的視覺狀態。正確做法是：只描述這一幀存在的東西。

Seedance 2.0

三、從畫面到影片：提示詞要寫動作，不要重寫畫面

All storyboards are ready; now we’re turning them into animated videos.

🌟註冊即夢

打開瀏覽器搜尋「即夢AI」，進入官網。點擊右上角登錄，可使用抖音賬號或手機號註冊，國內可直接訪問。

新用戶可免費生成一段 15 s 的影片，如需開通會員，Biteye 小師妹也對比了全網多平台 Seedance 2.0 的價格，詳情請看：《全網最低成本訂閱 Seedance 2.0 攻略來啦！》

🌟 如何撰寫影片提示詞？

這是這一步中最關鍵的地方，也是新手最容易寫錯的地方。

請先將所有參考圖上傳，即夢支援同時上傳多張參考圖，直接將圖片拖入聊天框即可。你上一章準備好的所有素材，包括角色三視圖、場景參考圖、四宮格或九宮格分鏡圖，請一次性全部拖入，即夢將綜合這些圖片的資訊來生成影片。

這裡很多新手會犯一個錯誤，就是把畫面裡有什麼重新描述一遍。即夢已經能看到你上傳的圖了，不需要你再告訴它畫面裡有什麼。

提示詞應寫明：畫面中什麼東西在移動、如何移動、鏡頭本身是否在運動，以及每段時間內發生了什麼。

按照下面這個模板來寫，每一行對應視頻裡的一個時間段：

請根據以上分鏡圖生成一段影片。

[起始秒到結束秒]，[景別]，[運鏡方式]，[角色或主體]+[具體動作]，音效：[聲音描述]。

Seedance 2.0

🌟 聲音描述是新手最容易忽略的部分，如果影片中有對白，僅寫「說話聲」是不夠的，模型會隨機生成一個聲音作為參考。要確保多段影片中角色聲音一致，有兩個方法：

1️⃣ 以第一段的音頻作為參考

先生成第一段影片，對生成結果滿意後，將這段影片的音頻單獨導出。後續每一段生成時，上傳這段音頻作為聲音參考，夢會參考此音色來生成後續片段的人聲，確保聲音一致性。

2️⃣ 使用 Fish Audio 尋找參考音色

打開 Fish Audio，搜尋符合角色氣質的聲音，試聽後下載一段作為參考音頻。生成每一段影片時統一使用這段參考音頻，確保全片聲音一致。

🌟使用標點控制 AI 配音的語氣

為 AI 配音模型撰寫台詞，不是簡單地輸入文字就完事了。同樣一句話，標點不同，發出的語氣可能完全不一樣。

核心邏輯是：標點符號控制停頓，停頓決定情緒。

…… 省略號讓聲音斷開但氣息不斷，適合思考、猶豫、話未說完的狀態。

……！組合使用，是壓抑之後的突然爆發。

（）括號內的內容音量自動降低，變成氣聲，適合內心獨白和自言自語。

*內容* 星號包圍的詞會變得更低、更慢、更重，用來強調關鍵資訊。

[] 在方括號內寫入指令而非對白，例如 [深吸一口氣]、[停頓1秒]，模型會執行動作而非念出。

💡小提示：

AI 沒有方位意識，經常分不清左右，需要另外製作「位置關係參考圖」來告訴 AI 人物是如何運動的，如下圖一。還有一個簡單的方法：用箭頭描述人物的運動軌跡，並在最後加上「刪除箭頭」。
寫慢不寫快。模型處理慢動作比快速動作穩定得多。如需快節奏片段，優先使用剪輯速度來實現，而非讓模型生成快速動作。
每段影片都必須上傳參考圖，不要只上傳一次。模型沒有跨段記憶，未上傳參考圖的段落，角色外貌會偏移。

Seedance 2.0

四、從片段到成片：剪輯決定影片最終質感

剪輯與後製是整個流程中的點睛之筆，前面生成的每一段素材都是獨立的，色調可能有差異，節奏可能不連貫，聲音也是分散的，剪輯的作用就是將這些碎片捏合成一個完整的故事。

加上音樂後，影片更能帶動觀眾的情緒；加上字幕，台詞更清晰了。同樣的素材，剪輯得好與差，最終呈現的效果可相差一個量級。

步驟分為四步：排列素材 → 統一色調 → 加聲音 → 加字幕，最後匯出。

第一步：排列素材

打開剪映，將所有片段按場景順序拖入時間軸。先不處理色調和聲音，確認順序後整體觀看節奏是否有問題，若片段過長，於此步驟剪除多餘部分。

第二步：統一色調

不同時間生成的片段，色溫和亮度可能有細微差異，放在一起會顯得割裂。處理方法：全選所有片段，在「調節」裡整體加一層濾鏡，場景一用冷藍色調，場景二之後切換暖黃，保持每個場景內部色調一致就夠了。

第三步：加入背景音樂和音效

對白聲音在生成視頻時已處理完畢，此步驟主要補充兩類聲音：背景音樂和環境音效。

背景音樂決定整體情緒基調，音量需壓至對白的 30% 以下，勿蓋過人聲。

第四步：添加字幕

使用剪映的「智能字幕」自動識別對白，識別完成後檢查錯別字，統一字體和位置。旁白或自言自語的台詞，建議以不同樣式區分，例如斜體或不同顏色。

五、從工具到表達：AI 影片真正改變了什麼

在上一篇文章《GPT Image 2.0 賦能 Seedance 2.0：人人可拍好萊塢大片》中，我們認為在 AI 時代：「拍攝影片」的門檻被降低了，未來人人都能拍出好萊塢大片。

但門檻低，不代表你就能做出來。

工具都是公開的，教程也到處都有，但大多數人卡在同一個地方：從來沒有完整跑過一遍。

在本篇文章中，Biteye 已經帶你從一個模糊的想法，一步步剪成一條完整的成片。

過去，這個過程需要一整套專業分工：編劇、分鏡、美術、攝影、剪輯，每一個環節都是一道門檻。

而現在，這些環節並未消失，只是被壓縮進了一條流程裡。

這意味著一項更底層的變化：影片不再是由「生產能力」所產生，而開始變成由「表達能力」所產生。