作者:Changan I Biteye 內容團隊
一個從沒剪過影片的人,能做出一條有劇情、有台詞、有鏡頭切換的 AI 短影片嗎?
可以,而且整個流程不超過半天。
這篇文章教你從:想一個故事 → 拆成分鏡 → 生成影片 → 剪輯成片。
無需任何基礎,跟著做一遍,你就能獲得一條完整的 AI 短影片。
一、從想法到故事:AI 視頻不是由一句提示詞生成的
很多人製作 AI 影片的第一步是打開即夢,盯著輸入框發呆,不知道該寫什麼。打幾個字,生成的結果與想像中相差甚遠,於是開始懷疑是不是工具不好用,或者是不是自己不會寫提示詞。
例如「我想做一個 Biteye 小師妹重生在幣圈當大佬」,這是一個想法,不是一個故事。
想法是一個方向,它告訴你大概要做什麼。故事是一個結構,它告訴你每一個畫面該拍什麼。從想法到故事,中間有一段工作要做,這段工作就是腳本策劃。
最簡單的方式是打開任何一個 LLM,把你腦中模糊的想法直接告訴它,讓它幫你把故事撐起來。你不需要自己想清楚所有細節,你只需要提供一個方向,剩下的可以和它一起推導。
確定故事線後,不要直接分鏡,先根據敘事節奏將其劃分為幾個大段落,每段明確核心事件是什麼。這一步是為了掌控整體節奏,避免某段過於拖沓或倉促。
即夢單條影片最長 15 秒,實際操作中 12 秒以下最穩定,畫面出問題的機率最低。1 min 的成片,按照每個片段平均 10 秒計算,大概需要 5 個片段。
我們把故事切成五個段落:
段落一:開場,核心任務是交代場景和角色。
Paragraph 2: Time travel, the core task is to establish the timeline.
Paragraph 3: Show the character's transformation from confusion to clarity.
計算財富,將情緒推向高潮。
Paragraph 5: Complete the reversal and form a closed loop with the opening.

段落確定後,將每個段落進一步拆分成具體的鏡頭描述。每個鏡頭寫四個要素:畫面主體、所在位置、正在做什麼、拍攝角度。不要在分鏡裡寫運動,只描述靜止的瞬間。
將段落一的腳本複製到 AI 聊天框中,輸入「幫我根據場景一的腳本,生成分鏡描述」,得到的效果如下👇

二、從故事到畫面:先鎖定角色、場景和分鏡
這一章是整個流程中最核心的一章,你在這裡生成的圖片質量,直接決定最終影片的質量上限。
先做三視圖,鎖定你的主角
在生成任何分鏡圖之前,第一件事是先把主角的三視圖做出來。
三視圖就是同一個角色的正面、側面、背面三張圖,目的是將此人的外形固定下來,後續無論生成什麼場景,都參考這三張圖以保持角色一致。
如果跳過這一步直接生成分鏡圖,你會發現每次生成的角色外貌都不一樣,髮型變了、臉型變了,這支影片就完全無法繼續製作。
打開 ChatGPT/Seedream,在對話框中輸入:
Generate a three-view diagram of Biteye’s junior sister
AI 會生成一張圖,包含同一人物的三個角度,如果生成的人物與你期望的差距較大,可上傳參考圖。
滿意三視圖後,請下載此圖,後續每次生成影片時都需上傳此圖作為參考。

再製作場景參考圖,鎖定你的背景
角色確定之後,同樣的邏輯,先把你的場景單獨生成一張參考圖,對話框輸入「幫我生成一張辦公室的圖片」

在正式開始生成分鏡圖之前,需要先理解一個基礎概念:鏡頭是影片最小的表達單位。
鏡頭也會說話,不同的鏡頭景別傳遞的信息並不相同,常見的景別有以下幾種:
Wide shot: Provides context; the audience learns where the scene is set and which characters are present through the wide shot.
中景:推進劇情、能看清動作和表情,是敘事中最常用的景別。
特寫:製造情緒的畫面,僅拍攝臉部、手部或某個關鍵道具,放大細節,給觀眾強烈的情緒衝擊。
理解單個鏡頭之後,還需要再往上走一層:一條影片不是一個鏡頭,而是多個鏡頭按照節奏組合在一起的結果。
在實際製作中,我們通常會用「四宮格」和「九宮格」來組織一段視頻的鏡頭結構——也就是在一段視頻裡,安排 4 個或 9 個鏡頭完成一次完整表達。
四宮格與九宮格的選擇,本質上是對節奏的控制:
節奏緩慢的段落:例如開場交代環境、結尾情緒收束,使用四宮格就足夠,四個鏡頭已能為每個畫面提供足夠的呼吸空間。
節奏快速的段落:例如打鬥高潮,鏡頭需要密集切換以製造緊張感,此時使用九宮格,將九個鏡頭壓縮在一段影片中,剪輯出來的感覺完全不一樣。
理解了鏡頭和節奏之後,就可以開始進入實際製作:把抽象的故事,變成具體的畫面。
當人物三視圖和場景參考圖都準備好後,接下來要做的,就是將前面寫好的分鏡描述,一張一張轉化為可視化的畫面。原因很簡單:AI 更擅長處理「確定的單幀」,而非「連續變化的過程」,同時也能大幅降低抽卡率。
具體做法是:
每次生成一個鏡頭時,先將角色三視圖和對應的場景參考圖上傳至 ChatGPT 對話中,然後輸入剛剛的分鏡圖生成提示詞。
請根據故事大綱+分鏡描述(附上先前與 AI 生成的分鏡詞),生成一張四宮格分鏡圖,並附上場景圖與人物圖
模型會根據您提供的分鏡資訊,將這段鏡頭拆分成四個畫面,並確保人物與場景的一致性,效果如下:

💡小貼士,文生圖有幾個高頻陷阱,提前了解能省下很多次數:
想生成人物拿手機打遊戲的鏡頭,生成的手機螢幕會自動轉向觀眾。AI 的邏輯是讓「內容可讀」,打遊戲成為圖片的污染源。正確做法是:「雙手橫向持手機,螢幕朝向人物面部,手機背面朝向鏡頭」。
職業名詞會讓 AI 聯想出整套場景:寫「護士」,AI 會聯想出醫院;寫「廚師」,AI 會聯想出廚房。正確做法是:只描述你真正想要的服飾,不提職業名稱。
文生圖只能生成靜止畫面,「正在轉頭」沒有對應的視覺狀態。正確做法是:只描述這一幀存在的東西。

三、從畫面到影片:提示詞要寫動作,不要重寫畫面
All storyboards are ready; now we’re turning them into animated videos.
🌟註冊即夢
打開瀏覽器搜尋「即夢AI」,進入官網。點擊右上角登錄,可使用抖音賬號或手機號註冊,國內可直接訪問。
新用戶可免費生成一段 15 s 的影片,如需開通會員,Biteye 小師妹也對比了全網多平台 Seedance 2.0 的價格,詳情請看:《全網最低成本訂閱 Seedance 2.0 攻略來啦!》
🌟 如何撰寫影片提示詞?
這是這一步中最關鍵的地方,也是新手最容易寫錯的地方。
請先將所有參考圖上傳,即夢支援同時上傳多張參考圖,直接將圖片拖入聊天框即可。你上一章準備好的所有素材,包括角色三視圖、場景參考圖、四宮格或九宮格分鏡圖,請一次性全部拖入,即夢將綜合這些圖片的資訊來生成影片。
這裡很多新手會犯一個錯誤,就是把畫面裡有什麼重新描述一遍。即夢已經能看到你上傳的圖了,不需要你再告訴它畫面裡有什麼。
提示詞應寫明:畫面中什麼東西在移動、如何移動、鏡頭本身是否在運動,以及每段時間內發生了什麼。
按照下面這個模板來寫,每一行對應視頻裡的一個時間段:
請根據以上分鏡圖生成一段影片。
[起始秒到結束秒],[景別],[運鏡方式],[角色或主體]+[具體動作],音效:[聲音描述]。

🌟 聲音描述是新手最容易忽略的部分,如果影片中有對白,僅寫「說話聲」是不夠的,模型會隨機生成一個聲音作為參考。要確保多段影片中角色聲音一致,有兩個方法:
1️⃣ 以第一段的音頻作為參考
先生成第一段影片,對生成結果滿意後,將這段影片的音頻單獨導出。後續每一段生成時,上傳這段音頻作為聲音參考,夢會參考此音色來生成後續片段的人聲,確保聲音一致性。
2️⃣ 使用 Fish Audio 尋找參考音色
打開 Fish Audio,搜尋符合角色氣質的聲音,試聽後下載一段作為參考音頻。生成每一段影片時統一使用這段參考音頻,確保全片聲音一致。
🌟使用標點控制 AI 配音的語氣
為 AI 配音模型撰寫台詞,不是簡單地輸入文字就完事了。同樣一句話,標點不同,發出的語氣可能完全不一樣。
核心邏輯是:標點符號控制停頓,停頓決定情緒。
…… 省略號讓聲音斷開但氣息不斷,適合思考、猶豫、話未說完的狀態。
……! 組合使用,是壓抑之後的突然爆發。
() 括號內的內容音量自動降低,變成氣聲,適合內心獨白和自言自語。
*內容* 星號包圍的詞會變得更低、更慢、更重,用來強調關鍵資訊。
[] 在方括號內寫入指令而非對白,例如 [深吸一口氣]、[停頓1秒],模型會執行動作而非念出。
💡小提示:
AI 沒有方位意識,經常分不清左右,需要另外製作「位置關係參考圖」來告訴 AI 人物是如何運動的,如下圖一。還有一個簡單的方法:用箭頭描述人物的運動軌跡,並在最後加上「刪除箭頭」。
寫慢不寫快。模型處理慢動作比快速動作穩定得多。如需快節奏片段,優先使用剪輯速度來實現,而非讓模型生成快速動作。
每段影片都必須上傳參考圖,不要只上傳一次。模型沒有跨段記憶,未上傳參考圖的段落,角色外貌會偏移。

四、從片段到成片:剪輯決定影片最終質感
剪輯與後製是整個流程中的點睛之筆,前面生成的每一段素材都是獨立的,色調可能有差異,節奏可能不連貫,聲音也是分散的,剪輯的作用就是將這些碎片捏合成一個完整的故事。
加上音樂後,影片更能帶動觀眾的情緒;加上字幕,台詞更清晰了。同樣的素材,剪輯得好與差,最終呈現的效果可相差一個量級。
步驟分為四步:排列素材 → 統一色調 → 加聲音 → 加字幕,最後匯出。
第一步:排列素材
打開剪映,將所有片段按場景順序拖入時間軸。先不處理色調和聲音,確認順序後整體觀看節奏是否有問題,若片段過長,於此步驟剪除多餘部分。
第二步:統一色調
不同時間生成的片段,色溫和亮度可能有細微差異,放在一起會顯得割裂。處理方法:全選所有片段,在「調節」裡整體加一層濾鏡,場景一用冷藍色調,場景二之後切換暖黃,保持每個場景內部色調一致就夠了。
第三步:加入背景音樂和音效
對白聲音在生成視頻時已處理完畢,此步驟主要補充兩類聲音:背景音樂和環境音效。
背景音樂決定整體情緒基調,音量需壓至對白的 30% 以下,勿蓋過人聲。
第四步:添加字幕
使用剪映的「智能字幕」自動識別對白,識別完成後檢查錯別字,統一字體和位置。旁白或自言自語的台詞,建議以不同樣式區分,例如斜體或不同顏色。
五、從工具到表達:AI 影片真正改變了什麼
在上一篇文章《GPT Image 2.0 賦能 Seedance 2.0:人人可拍好萊塢大片》中,我們認為在 AI 時代:「拍攝影片」的門檻被降低了,未來人人都能拍出好萊塢大片。
但門檻低,不代表你就能做出來。
工具都是公開的,教程也到處都有,但大多數人卡在同一個地方:從來沒有完整跑過一遍。
在本篇文章中,Biteye 已經帶你從一個模糊的想法,一步步剪成一條完整的成片。
過去,這個過程需要一整套專業分工:編劇、分鏡、美術、攝影、剪輯,每一個環節都是一道門檻。
而現在,這些環節並未消失,只是被壓縮進了一條流程裡。
這意味著一項更底層的變化:影片不再是由「生產能力」所產生,而開始變成由「表達能力」所產生。
