Tác giả: Đội ngũ nội dung Changan I Biteye
Một người chưa từng cắt video có thể tạo ra một video ngắn AI với cốt truyện, lời thoại và các cảnh quay chuyển đổi không?
Có thể, và toàn bộ quy trình không quá nửa ngày.
Bài viết này hướng dẫn bạn từ: nghĩ ra một câu chuyện → tách thành các cảnh quay → tạo video → cắt ghép thành phim.
Không cần bất kỳ kiến thức nền tảng nào, chỉ cần làm theo một lần, bạn sẽ có một video ngắn AI hoàn chỉnh.
Một, từ ý tưởng đến câu chuyện: Video AI không được tạo ra chỉ bằng một câu lệnh
Nhiều người bắt đầu làm video AI bằng cách mở Jimeng, ngồi nhìn vào khung nhập liệu mà không biết nên viết gì. Gõ vài chữ, kết quả tạo ra lại khác xa so với tưởng tượng, sau đó bắt đầu nghi ngờ liệu công cụ có dùng không tốt hay mình không biết cách viết lời nhắc.
Ví dụ như “Tôi muốn tạo một câu chuyện về một tiểu sư muội của Biteye tái sinh trong giới tiền điện tử trở thành đại gia”, đây là một ý tưởng, không phải một câu chuyện.
Ý tưởng là một hướng đi, cho bạn biết大致 phải làm gì. Câu chuyện là một cấu trúc, cho bạn biết mỗi cảnh nên quay gì. Từ ý tưởng đến câu chuyện, có một khoảng công việc cần thực hiện, và công việc đó chính là lập kế hoạch kịch bản.
Cách đơn giản nhất là mở bất kỳ LLM nào, nói trực tiếp với nó về ý tưởng mơ hồ trong đầu bạn và để nó giúp bạn phát triển câu chuyện. Bạn không cần phải tự nghĩ ra tất cả các chi tiết, bạn chỉ cần đưa ra một hướng đi, phần còn lại có thể cùng nó suy luận.
Sau khi xác định cốt truyện, đừng vội chia cảnh ngay, mà hãy chia nó thành vài đoạn lớn dựa trên nhịp điệu kể chuyện, mỗi đoạn cần xác định rõ một sự việc cốt lõi. Bước này nhằm kiểm soát nhịp độ tổng thể, tránh để một đoạn nào đó quá dài hoặc quá vội vã.
Mỗi video của Ji Meng có độ dài tối đa 15 giây; trong thực tế, các đoạn dưới 12 giây là ổn định nhất và ít khả năng gặp sự cố hình ảnh nhất. Một video hoàn chỉnh 1 phút, tính trung bình mỗi đoạn 10 giây, sẽ cần khoảng 5 đoạn.
Chúng tôi chia câu chuyện thành năm đoạn:
Đoạn một: Mở đầu, nhiệm vụ cốt lõi là giới thiệu bối cảnh và nhân vật.
Đoạn hai: Du hành thời gian, nhiệm vụ cốt lõi là làm rõ dòng thời gian.
Đoạn ba: Thể hiện sự chuyển biến của nhân vật từ bối rối đến tỉnh táo.
Đoạn bốn: Tính toán tài sản, đẩy cảm xúc lên cao trào.
Đoạn năm: Hoàn thành sự đảo chiều, tạo thành vòng khép kín với phần mở đầu.

Sau khi xác định các đoạn, hãy chia từng đoạn thành các mô tả cảnh cụ thể. Mỗi cảnh viết bốn yếu tố: chủ thể hình ảnh, vị trí, đang làm gì, góc quay. Không mô tả chuyển động trong các cảnh phân cảnh, chỉ mô tả khoảnh khắc tĩnh.
Sao chép kịch bản của đoạn một vào khung trò chuyện AI, nhập “Giúp tôi tạo mô tả cảnh quay dựa trên kịch bản của cảnh một”, kết quả nhận được như sau👇

Hai: Từ câu chuyện đến hình ảnh: Trước tiên hãy xác định nhân vật, bối cảnh và cảnh quay
Đây là chương quan trọng nhất trong toàn bộ quy trình, chất lượng hình ảnh bạn tạo ra ở đây sẽ trực tiếp quyết định giới hạn chất lượng của video cuối cùng.
Hãy vẽ ba hình chiếu trước, sau đó cố định nhân vật chính của bạn
Trước khi tạo bất kỳ hình ảnh minh họa nào, điều đầu tiên cần làm là tạo ra hình chiếu ba mặt của nhân vật chính.
Ba góc nhìn là ba hình ảnh của cùng một nhân vật từ phía trước, bên hông và phía sau, nhằm cố định hình dáng của nhân vật, để sau này khi tạo bất kỳ cảnh nào cũng đều tham chiếu ba hình ảnh này nhằm đảm bảo tính nhất quán của nhân vật.
Nếu bạn bỏ qua bước này và trực tiếp tạo hình ảnh minh họa, bạn sẽ nhận thấy nhân vật được tạo ra mỗi lần đều khác nhau—kiểu tóc thay đổi, hình dáng khuôn mặt thay đổi, và video này sẽ không thể tiếp tục thực hiện được.
Mở ChatGPT/Seedream, nhập vào khung trò chuyện:
Hãy giúp tôi tạo một bản vẽ ba mặt của Tiểu sư muội Biteye
AI sẽ tạo ra một hình ảnh với ba góc nhìn của cùng một nhân vật; nếu nhân vật được tạo ra khác nhiều so với mong muốn của bạn, bạn có thể tải lên hình ảnh tham khảo.
Sau khi hài lòng với ba góc nhìn, hãy tải xuống hình này, và mỗi lần tạo video sau này, hãy tải nó lên lại làm tài liệu tham khảo.

Tạo lại hình tham khảo bối cảnh, cố định nền của bạn
Sau khi xác định vai trò, hãy sử dụng cùng một logic để tạo riêng một hình tham chiếu cho cảnh của bạn, nhập vào khung hội thoại: “Hãy giúp tôi tạo một hình ảnh văn phòng”

Trước khi bắt đầu tạo hình ảnh minh họa, cần hiểu một khái niệm cơ bản: cảnh là đơn vị biểu đạt nhỏ nhất của video.
Các góc máy cũng có thể nói lên điều gì đó, các loại khung hình khác nhau sẽ truyền tải thông tin khác nhau; các loại khung hình phổ biến bao gồm:
Toàn cảnh: Cung cấp thông tin, giúp khán giả biết được cảnh này diễn ra ở đâu và có những nhân vật nào.
Medium shot: Used to advance the plot, clearly showing actions and expressions; it is the most commonly used shot type in storytelling.
Close-up: Focus on the face, hands, or a key prop to create emotion, magnify details, and deliver a powerful emotional impact to the audience.
Sau khi hiểu một cảnh quay đơn lẻ, bạn cần tiến thêm một bước nữa: một video không phải là một cảnh quay, mà là kết quả của nhiều cảnh quay được kết hợp theo nhịp điệu.
Trong quá trình sản xuất thực tế, chúng ta thường sử dụng “ô vuông 4 ô” và “ô vuông 9 ô” để tổ chức cấu trúc cảnh quay của một đoạn video — tức là trong một đoạn video, sắp xếp 4 hoặc 9 cảnh quay để hoàn thành một biểu đạt đầy đủ.
Việc lựa chọn giữa lưới 4 ô và lưới 9 ô về bản chất là kiểm soát nhịp điệu:
Các đoạn nhịp độ chậm: ví dụ như phần mở đầu giới thiệu bối cảnh, phần kết thúc dồn nén cảm xúc, chỉ cần dùng khung bốn ô là đủ, bốn cảnh quay có đủ không gian để mỗi khung hình được thở.
Đoạn nhịp nhanh: ví dụ như cảnh đấu đỉnh điểm, cần chuyển cảnh dày đặc để tạo cảm giác căng thẳng, lúc này dùng lưới 3x3, chín cảnh được nén vào một đoạn video, cảm giác khi cắt ra hoàn toàn khác biệt.
Sau khi đã hiểu về khung hình và nhịp điệu, bạn có thể bắt đầu bước vào quá trình sản xuất thực tế: biến câu chuyện trừu tượng thành những hình ảnh cụ thể.
Sau khi đã chuẩn bị xong các hình ảnh ba góc nhìn nhân vật và hình tham khảo bối cảnh, bước tiếp theo là chuyển từng đoạn mô tả phân cảnh đã viết trước đó thành các khung hình trực quan. Lý do rất đơn giản: AI hoạt động hiệu quả hơn với các “khung hình đơn lẻ xác định” thay vì “quá trình thay đổi liên tục”, đồng thời giúp giảm đáng kể tỷ lệ rút ngẫu nhiên.
Cụ thể là:
Mỗi lần tạo một cảnh, hãy tải lên hình ảnh ba góc nhìn của nhân vật và hình ảnh tham khảo cảnh tương ứng vào cuộc hội thoại ChatGPT, sau đó nhập từ khóa kích hoạt đã được chia sẻ cho cảnh đó.
Hãy giúp tôi tạo một hình ảnh bốn khung cảnh dựa trên cốt truyện và mô tả phân cảnh (kèm theo các từ phân cảnh đã được AI tạo trước đó), bao gồm hình cảnh và hình nhân vật.
Mô hình sẽ dựa trên thông tin cảnh quay bạn cung cấp, chia cảnh này thành bốn khung hình và đảm bảo tính nhất quán về nhân vật và bối cảnh, hiệu quả như sau:

💡 Mẹo nhỏ, có vài bẫy phổ biến khi tạo hình ảnh từ văn bản; biết trước sẽ tiết kiệm được nhiều lần sử dụng:
Muốn tạo cảnh nhân vật cầm điện thoại chơi game, màn hình điện thoại sẽ tự động quay về phía khán giả. Logic của AI là làm cho “nội dung có thể đọc được”, khiến việc chơi game trở thành nguồn ô nhiễm cho hình ảnh. Cách làm đúng là: “Hai tay cầm điện thoại theo chiều ngang, màn hình hướng về phía mặt nhân vật, mặt sau điện thoại hướng về phía ống kính”.
Các thuật ngữ nghề nghiệp sẽ khiến AI liên tưởng đến cả một bối cảnh hoàn chỉnh: viết “y tá”, AI sẽ liên tưởng đến bệnh viện; viết “đầu bếp”, AI sẽ liên tưởng đến nhà bếp. Cách làm đúng là: chỉ mô tả trang phục bạn thực sự muốn, không đề cập đến tên nghề nghiệp.
Văn sinh ảnh chỉ có thể tạo ra hình ảnh tĩnh, hành động “đang quay đầu” không có trạng thái hình ảnh tương ứng. Cách làm đúng là: chỉ mô tả những gì tồn tại trong khung hình này.

Ba, từ hình ảnh sang video: hãy viết các từ gợi ý về hành động, đừng viết lại hình ảnh
All the storyboards are ready; now we’re turning them into an animated video.
🌟 Đăng ký ngay để mơ
Mở trình duyệt tìm kiếm “Ji Meng AI”, truy cập trang web chính thức. Nhấp vào đăng nhập ở góc trên bên phải, có thể đăng ký bằng tài khoản Douyin hoặc số điện thoại, có thể truy cập trực tiếp trong nước.
Người dùng mới có thể tạo miễn phí một đoạn video 15 giây. Nếu cần đăng ký thành viên, Biteye Tiểu Sư Muội đã so sánh giá Seedance 2.0 trên nhiều nền tảng, chi tiết xem tại: 《Hướng dẫn đăng ký Seedance 2.0 với chi phí thấp nhất toàn mạng!》
🌟 Viết prompt video như thế nào?
Đây là điểm quan trọng nhất trong bước này và cũng là nơi người mới thường viết sai nhất.
Đầu tiên, hãy tải tất cả các hình ảnh tham khảo vào, Ji Meng hỗ trợ tải lên nhiều hình ảnh tham khảo cùng lúc, chỉ cần kéo hình ảnh vào khung trò chuyện. Tất cả tài nguyên bạn đã chuẩn bị ở chương trước — hình ảnh ba mặt của nhân vật, hình ảnh tham khảo bối cảnh, hình ảnh chia ô 4 ô hoặc 9 ô — hãy kéo tất cả vào cùng một lúc, Ji Meng sẽ tổng hợp thông tin từ các hình ảnh này để tạo video.
Nhiều người mới ở đây thường mắc sai lầm là mô tả lại những gì xuất hiện trong hình ảnh. Nghĩa là giấc mơ đã có thể thấy hình ảnh bạn tải lên, nên bạn không cần phải nói với nó hình ảnh đó có gì.
Các từ khóa hướng dẫn cần viết là: trong khung hình có gì đang chuyển động, chuyển động như thế nào, camera có đang di chuyển không, và mỗi khoảng thời gian xảy ra điều gì.
Theo mẫu dưới đây, mỗi dòng tương ứng với một khoảng thời gian trong video:
Hãy giúp tôi tham khảo các khung hình trên để tạo một đoạn video.
[giây bắt đầu đến giây kết thúc], [khung cảnh], [cách quay], [nhân vật hoặc chủ thể] + [hành động cụ thể], âm thanh: [mô tả âm thanh].

🌟 Mô tả âm thanh là phần mà người mới thường bỏ qua nhiều nhất; nếu video có lời thoại, chỉ ghi “tiếng nói” là chưa đủ, mô hình sẽ tự động tạo một âm thanh ngẫu nhiên làm tham chiếu. Để đảm bảo âm thanh nhân vật nhất quán giữa nhiều đoạn video, có hai phương pháp:
1️⃣ Sử dụng đoạn âm thanh đầu tiên làm tham khảo
Tạo đoạn video đầu tiên trước, sau khi hài lòng với kết quả, hãy xuất riêng âm thanh của đoạn video đó. Khi tạo các đoạn tiếp theo, hãy tải lên đoạn âm thanh này làm tham khảo âm thanh, để hệ thống tham chiếu đến chất giọng này để tạo giọng nói cho các đoạn sau, đảm bảo tính nhất quán về giọng.
2️⃣ Tìm âm thanh tham khảo bằng Fish Audio
Mở Fish Audio, tìm kiếm giọng nói phù hợp với tính cách nhân vật, nghe thử và tải về một đoạn làm âm thanh tham chiếu. Khi tạo mỗi đoạn video, hãy sử dụng thống nhất âm thanh tham chiếu này để đảm bảo âm thanh toàn bộ phim nhất quán.
🌟 Kiểm soát ngữ điệu của AI voice bằng dấu câu
Viết lời thoại cho mô hình giọng nói AI, không phải chỉ việc gõ văn bản vào là xong. Cùng một câu nói, dấu câu khác nhau, ngữ điệu phát ra có thể hoàn toàn khác biệt.
Logic cốt lõi là: dấu câu kiểm soát sự dừng lại, sự dừng lại quyết định cảm xúc.
…… Dấu chấm lửng làm ngắt tiếng nhưng giữ hơi thở, phù hợp với trạng thái suy nghĩ, do dự, chưa nói hết câu.
……! Kết hợp sử dụng, là sự bùng nổ đột ngột sau khi bị kìm nén.
() Nội dung trong dấu ngoặc sẽ tự động giảm âm lượng, trở thành giọng thì thầm, phù hợp để độc thoại nội tâm và tự nói với chính mình.
Các từ được bao quanh bởi dấu sao sẽ trở nên thấp hơn, chậm hơn và nặng hơn, nhằm nhấn mạnh thông tin quan trọng.
[] Viết lệnh trong dấu ngoặc vuông, ví dụ [hít một hơi thật sâu], [dừng 1 giây], mô hình sẽ thực hiện hành động thay vì đọc ra.
💡 Mẹo nhỏ:
AI không có nhận thức về hướng, thường xuyên phân biệt không rõ trái phải, cần tạo thêm “biểu đồ tham chiếu mối quan hệ vị trí” để chỉ cho AI biết nhân vật di chuyển như thế nào, như hình dưới đây. Còn một cách đơn giản hơn: dùng mũi tên để mô tả quỹ đạo di chuyển của nhân vật, và cuối cùng thêm “xóa mũi tên”.
Viết chậm chứ không viết nhanh. Mô hình xử lý các chuyển động chậm ổn định hơn nhiều so với chuyển động nhanh. Đối với các đoạn cần nhịp độ nhanh, hãy ưu tiên điều chỉnh tốc độ cắt thay vì để mô hình tạo chuyển động nhanh.
Mỗi đoạn video đều phải tải lên hình ảnh tham chiếu, đừng chỉ tải lên một lần. Mô hình không có bộ nhớ xuyên suốt các đoạn, nếu không tải lên hình ảnh tham chiếu, ngoại hình nhân vật sẽ bị lệch.

Bốn: Từ đoạn phim đến tác phẩm hoàn chỉnh: Việc cắt ghép quyết định chất lượng cuối cùng của video
Biên tập và hậu kỳ là bước quan trọng nhất trong toàn bộ quy trình, mọi đoạn tài liệu được tạo ra trước đó đều độc lập, màu sắc có thể khác nhau, nhịp điệu không liền mạch, âm thanh cũng tản mạn; vai trò của biên tập là kết hợp những mảnh ghép này thành một câu chuyện hoàn chỉnh.
Sau khi thêm nhạc vào video, cảm xúc của khán giả được khuấy động mạnh hơn; thêm phụ đề giúp lời thoại rõ ràng hơn. Cùng một tài nguyên, nhưng cách dựng tốt hay xấu có thể tạo ra sự khác biệt về chất lượng lên đến một cấp độ.
Thực hiện theo bốn bước: sắp xếp tài liệu → đồng nhất màu sắc → thêm âm thanh → thêm phụ đề, sau đó xuất ra.
Bước 1: Sắp xếp tài liệu
Mở JianYing, kéo tất cả các đoạn theo thứ tự cảnh vào đường thời gian. Bỏ qua màu sắc và âm thanh, xác nhận thứ tự, xem lại tổng thể xem nhịp điệu có vấn đề gì không, cắt bỏ phần thừa của các đoạn quá dài ở bước này.
Bước thứ hai: Đồng nhất màu sắc
Các đoạn được tạo ở các thời điểm khác nhau có thể có sự khác biệt nhỏ về nhiệt độ màu và độ sáng, khiến chúng trông rời rạc khi đặt cạnh nhau. Cách xử lý: Chọn toàn bộ các đoạn, thêm một bộ lọc tổng thể trong phần “Điều chỉnh”, dùng tông màu xanh lạnh cho cảnh một, sau đó chuyển sang tông vàng ấm cho các cảnh tiếp theo, chỉ cần đảm bảo sự nhất quán về màu sắc trong từng cảnh là đủ.
Bước 3: Thêm nhạc nền và hiệu ứng âm thanh
Âm thanh hội thoại đã được xử lý trong quá trình tạo video, bước này chủ yếu bổ sung hai loại âm thanh: nhạc nền và hiệu ứng âm thanh môi trường.
Nhạc nền quyết định tông cảm xúc tổng thể, giảm âm lượng xuống dưới 30% so với lời thoại, đừng lấn át giọng nói.
Bước 4: Thêm phụ đề
Sử dụng tính năng “Chữ thông minh” của JianYing để nhận diện tự động hội thoại, sau khi nhận diện xong, kiểm tra lại các lỗi chính tả và thống nhất phông chữ cũng như vị trí. Đối với các đoạn bình luận hoặc lời nói thầm, đề xuất sử dụng kiểu khác biệt so với hội thoại bình thường, ví dụ như in nghiêng hoặc màu khác.
Năm: Từ công cụ đến biểu đạt: AI video đã thay đổi điều gì
Trong bài viết trước, “GPT Image 2.0 hỗ trợ Seedance 2.0: Ai cũng có thể quay phim bom tấn Hollywood”, chúng tôi cho rằng trong thời đại AI: “rào cản để quay video” đã được hạ thấp, và sau này ai cũng có thể quay phim bom tấn Hollywood.
Nhưng mức độ dễ dàng không có nghĩa là bạn có thể thực hiện được.
Các công cụ đều công khai, hướng dẫn cũng có sẵn khắp nơi, nhưng hầu hết mọi người đều mắc kẹt ở cùng một điểm: chưa bao giờ chạy qua một vòng hoàn chỉnh.
Bài viết này, Biteye đã cùng bạn từ một ý tưởng mơ hồ, từng bước cắt ghép thành một tác phẩm hoàn chỉnh.
Trước đây, quy trình này đòi hỏi một hệ thống chuyên môn hóa đầy đủ: biên kịch, storyboard, mỹ thuật, quay phim, dựng phim, mỗi khâu đều là một rào cản.
Và hiện tại, các khâu này không biến mất, mà chỉ được nén vào một quy trình duy nhất.
Điều này có nghĩa là một sự thay đổi sâu hơn: video không còn là sản phẩm của "khả năng sản xuất", mà bắt đầu trở thành sản phẩm của "khả năng biểu đạt".
