लेखक: चांगान आई बाइटाय अंतर्गत टीम
क्या एक व्यक्ति जिसने कभी वीडियो काटा नहीं है, एक AI शॉर्ट वीडियो बना सकता है जिसमें कहानी, डायलॉग और कैमरा कट्स हों?
हाँ, और पूरी प्रक्रिया आधे दिन से कम की होगी।
यह लेख आपको सिखाता है कि कैसे: एक कहानी सोचें → उसे सीन में विभाजित करें → वीडियो जेनरेट करें → उसे संपादित करके अंतिम वीडियो बनाएं।
कोई भी बुनियादी जानकारी की आवश्यकता नहीं, एक बार करें, आपको एक पूर्ण AI शॉर्ट वीडियो मिलेगा।
एक, विचार से कहानी तक: AI वीडियो केवल एक प्रॉम्प्ट से नहीं बनता
बहुत से लोग एआई वीडियो बनाने का पहला कदम जिमेंग खोलकर, इनपुट बॉक्स की ओर घूंट लगाकर बैठ जाते हैं और लिखने के लिए कुछ नहीं सोच पाते। कुछ शब्द टाइप करने के बाद, जो उत्पाद बनता है, वह उनकी कल्पना से बहुत अलग होता है, और फिर वे संदेह करने लगते हैं कि क्या उपकरण ही खराब है, या फिर वे प्रॉम्प्ट लिखने में असमर्थ हैं।
उदाहरण के लिए, "मैं एक बाइटाय छोटी बहन को बिटकॉइन सर्कल में एक बड़े बनकर पुनर्जन्म देना चाहता हूँ", यह एक विचार है, एक कहानी नहीं।
एक विचार एक दिशा है, जो आपको लगभग क्या करना है वह बताता है। कहानी एक संरचना है, जो आपको प्रत्येक दृश्य में क्या शूट करना है वह बताती है। विचार से कहानी तक, बीच में एक काम होता है, और यह काम स्क्रिप्ट प्लानिंग है।
सबसे आसान तरीका है कि कोई भी LLM खोलें और अपने दिमाग में बनी उस धुंधली अवधारणा को सीधे उसे बताएं, ताकि वह आपकी कहानी को पूरा करने में मदद कर सके। आपको सभी विवरणों को अपने आप समझने की जरूरत नहीं है; आपको सिर्फ एक दिशा प्रदान करनी है, और बाकी कुछ उसके साथ मिलकर निकाल सकते हैं।
कहानी का रूप तय होने के बाद, सीधे शॉट्स में न बाँटें, बल्कि कहानी के तालमेल के अनुसार इसे कुछ बड़े खंडों में विभाजित करें, जिसमें प्रत्येक खंड एक मुख्य बात को स्पष्ट रूप से दर्शाए। यह चरण समग्र तालमेल को नियंत्रित करने के लिए है, ताकि कोई खंड बहुत धीमा या बहुत जल्दी न हो।
इमेजिन की प्रत्येक वीडियो की अधिकतम अवधि 15 सेकंड है, वास्तविक उपयोग में 12 सेकंड से कम सबसे स्थिर है और चित्रण समस्याओं की संभावना सबसे कम होती है। 1 मिनट के पूर्ण वीडियो के लिए, यदि प्रत्येक खंड की औसत अवधि 10 सेकंड मान ली जाए, तो लगभग 5 खंडों की आवश्यकता होगी।
हमने अपनी कहानी को पाँच अनुच्छेदों में बाँट दिया:
पैराग्राफ एक: शुरुआत, मुख्य कार्य परिदृश्य और किरदारों को प्रस्तुत करना है।
पैराग्राफ दो: कालांतरण, मुख्य कार्य समयरेखा को स्पष्ट करना है।
Paragraph three: Show the character's transition from confusion to clarity.
पैसे की गणना करें और भावनाओं को चरम पर पहुँचाएँ।
पैराग्राफ पाँच: प्रतिलोमीकरण पूरा करें, और शुरुआत के साथ एक बंद चक्र बनाएँ।

पैराग्राफ की पुष्टि के बाद, प्रत्येक पैराग्राफ को विशिष्ट शॉट विवरणों में विभाजित करें। प्रत्येक शॉट में चार तत्व लिखें: दृश्य का मुख्य विषय, स्थिति, क्या कर रहा है, और शूटिंग कोण। शॉट में गति का वर्णन न करें, केवल स्थिर क्षण का वर्णन करें।
पैराग्राफ वन के स्क्रिप्ट को AI चैट बॉक्स में कॉपी करें, "मुझे सीन वन के स्क्रिप्ट के आधार पर शॉट डिस्क्रिप्शन जेनरेट करने में मदद करें" लिखें, निम्न परिणाम प्राप्त होता है👇

द्वितीय, कहानी से चित्रण तक: पहले किरदार, स्थान और शॉट्स को निर्धारित करें
यह अध्याय पूरी प्रक्रिया का सबसे महत्वपूर्ण अध्याय है, जहाँ आप द्वारा बनाई गई छवियों की गुणवत्ता सीधे अंतिम वीडियो की गुणवत्ता की सीमा निर्धारित करती है।
पहले तीन दृश्य बनाएं, अपने मुख्य पात्र को लॉक करें
किसी भी शॉट आर्ट को बनाने से पहले, पहला कदम मुख्य पात्र का तीन दृश्य चित्र बनाना है।
तीन दृश्य एक ही किरदार के सामने, पार्श्व और पीछे के तीन चित्र होते हैं, जिसका उद्देश्य इस व्यक्ति के आकार को स्थिर करना होता है, ताकि आगे किसी भी परिदृश्य को जनरेट करते समय इन तीनों चित्रों का हवाला देकर किरदार की समानता बनाए रखी जा सके।
अगर आप इस चरण को छोड़कर सीधे स्क्रिप्ट बनाते हैं, तो आप देखेंगे कि हर बार बनने वाले किरदार अलग-अलग दिखते हैं, बाल बदल जाते हैं, चेहरे का आकार बदल जाता है, और इस वीडियो को आगे बढ़ाना असंभव हो जाता है।
ChatGPT/Seedream खोलें और चैट बॉक्स में टाइप करें:
मुझे बाइटाय लिटल सिस्टर का तीन दृश्य चित्र बनाने में मदद करें
एआई एक चित्र बनाएगा, जिसमें एक ही व्यक्ति के तीन कोण होंगे। यदि उत्पन्न चित्र आपके इच्छित चित्र से काफी भिन्न है, तो आप एक संदर्भ चित्र अपलोड कर सकते हैं।
तीनों दृश्यों से संतुष्ट होने के बाद, इस चित्र को डाउनलोड कर लें, और आगे हर वीडियो जनरेट करते समय इसे संदर्भ के रूप में वापस अपलोड करें।

प्रासंगिक चित्र फिर से बनाएं, अपना बैकग्राउंड लॉक करें
भूमिका तय करने के बाद, एक ही तर्क के साथ, अपने सीन को पहले अलग से एक संदर्भ चित्र बनाएं, डायलॉग बॉक्स में "मुझे एक ऑफिस की तस्वीर बनाने में मदद करें" टाइप करें

शूटिंग शुरू करने से पहले, एक मूल अवधारणा को समझना आवश्यक है: शॉट वीडियो की सबसे छोटी अभिव्यक्ति इकाई है।
कैमरा भी बोलता है, अलग-अलग शॉट एंगल्स अलग-अलग संदेश भेजते हैं; सामान्य शॉट एंगल्स निम्नलिखित हैं:
Wide shot: Provides context; the audience understands the location and characters in the scene through the wide shot.
मध्य शॉट: कहानी को आगे बढ़ाने वाला, जिसमें गतिविधियाँ और चेहरे के भाव स्पष्ट रूप से दिखाई देते हैं, यह कहानीकरण में सबसे अधिक उपयोग किया जाने वाला शॉट है।
क्लोज-अप: भावनाएँ बनाने वाला, केवल चेहरा, हाथ या कोई महत्वपूर्ण वस्तु दिखाएँ, विस्तार से विवरण दिखाएँ, दर्शकों को तीव्र भावनात्मक प्रभाव दें।
एक शॉट को समझने के बाद, आपको एक और ऊपर जाना होगा: एक वीडियो एक शॉट नहीं होता, बल्कि कई शॉट्स का तालमेल से संयोजन होता है।
वास्तविक निर्माण में, हम आमतौर पर एक वीडियो के लेंस संरचना को व्यवस्थित करने के लिए «चार-ग्रिड» और «नौ-ग्रिड» का उपयोग करते हैं—यानी एक वीडियो में, 4 या 9 लेंसों को एक पूर्ण अभिव्यक्ति पूरा करने के लिए व्यवस्थित करें।
चार वर्ग और नौ वर्ग के बीच का चयन, मूल रूप से लय पर नियंत्रण है:
धीमे अनुच्छेद: जैसे परिदृश्य का परिचय या समापन का भावनात्मक समापन, चार-ग्रिड काफी है, चार शॉट्स में प्रत्येक दृश्य के लिए सांस लेने के लिए पर्याप्त स्थान है।
तेज़ टेम्पो वाले दृश्य: जैसे लड़ाई का शिखर, जहां तनाव पैदा करने के लिए कैमरा शॉट्स की घनी बदलाव की आवश्यकता होती है, इस समय नौ-कोने वाले ग्रिड का उपयोग करें, जहां नौ शॉट्स एक ही वीडियो में समायोजित होते हैं, जिससे कटिंग का महसूस करने का अंदाज़ पूरी तरह से अलग हो जाता है।
लेंस और रिदम को समझने के बाद, आप वास्तविक निर्माण में प्रवेश कर सकते हैं: अमूर्त कहानी को विशिष्ट दृश्यों में बदलना।
जब व्यक्ति के तीन दृश्य और सीन रेफरेंस इमेज तैयार हो जाएँ, तो अगला कदम यह है कि पहले लिखे गए सीन विवरण को एक-एक करके दृश्यात्मक चित्रों में बदल दें। कारण सरल है: AI को "निश्चित एकल फ्रेम" संभालने में अधिक सुविधा होती है, न कि "लगातार बदलती प्रक्रिया" में, और इससे सैम्पलिंग दर में भी काफी कमी आती है।
विशिष्ट तरीका है:
प्रत्येक शॉट को जनरेट करने के लिए, पहले किरदार के तीन दृश्य और संबंधित सीन रेफरेंस इमेज को ChatGPT डायलॉग में अपलोड करें, फिर पिछले शॉट लिस्ट के जनरेशन प्रॉम्प्ट को इनपुट करें।
मुझे कहानी के सारांश और शॉट विवरण (पहले AI द्वारा उत्पन्न शॉट शब्द सहित) के आधार पर एक चार-ग्रिड शॉट चित्र बनाएं, जिसमें स्थिति चित्र और पात्र चित्र शामिल हों।
मॉडल आपके द्वारा प्रदान किए गए शॉट जानकारी के आधार पर इस दृश्य को चार चित्रों में विभाजित करेगा और व्यक्ति और पृष्ठभूमि की समरूपता को बनाए रखेगा, परिणाम निम्नलिखित है:

💡 छोटी सुझाव, टेक्स्ट टू इमेज में कुछ आम जाल होते हैं, जो पहले से जान लेने से आपको कई बार बचाएगा:
एक व्यक्ति जो अपने फोन पर गेम खेल रहा है, इस दृश्य को बनाने के लिए, फोन की स्क्रीन स्वचालित रूप से दर्शकों की ओर मुड़ जाती है। AI का तर्क है कि "सामग्री पढ़ने योग्य हो" — जिससे गेम खेलना छवि का दूषण बन जाता है। सही तरीका है: "दोनों हाथों से फोन को क्षैतिज रूप से पकड़ें, स्क्रीन व्यक्ति के चेहरे की ओर मुख करें, और फोन का पिछला हिस्सा कैमरे की ओर हो।"
पेशेवर शब्द एआई को पूरे सीन की कल्पना करने के लिए प्रेरित करते हैं: "नर्स" लिखने पर, एआई अस्पताल की कल्पना करेगा, "शेफ" लिखने पर, एआई रसोईघर की कल्पना करेगा। सही तरीका है: केवल आप वास्तव में चाहते हैं वह पोशाक वर्णन करें, पेशा का नाम न लिखें।
टेक्स्ट टू इमेज केवल स्थिर चित्र बना सकता है, 'सिर घुमा रहा है' का कोई दृश्य स्थिति नहीं होती। सही तरीका है: केवल इस फ्रेम में मौजूद चीजों का वर्णन करें।

तीन: चित्र से वीडियो तक: प्रॉम्प्ट में एक्शन लिखें, चित्र को दोबारा न लिखें
स्क्रिप्ट तैयार हैं, अब हम उन्हें चलते हुए वीडियो में बदलने जा रहे हैं।
🌟 रजिस्टर करें और सपना देखें
ब्राउज़र खोलें और "जीमेंग AI" की खोज करें, आधिकारिक वेबसाइट पर जाएं। दाएँ ऊपरी कोने में लॉगिन पर क्लिक करें, आप डायनामिक अकाउंट या मोबाइल नंबर से रजिस्टर कर सकते हैं, भारत में सीधे एक्सेस किया जा सकता है।
नए उपयोगकर्ता 15 सेकंड का एक मुफ्त वीडियो बना सकते हैं, यदि आपको शुरुआती सदस्यता चाहिए, तो Biteye की छोटी बहन ने पूरे इंटरनेट पर कई प्लेटफॉर्मों पर Seedance 2.0 की कीमतों की तुलना की है, विस्तार से देखें: 《पूरे इंटरनेट पर Seedance 2.0 सब्सक्रिप्शन की सबसे कम लागत वाली गाइड आ गई है!》
🌟 वीडियो प्रॉम्प्ट कैसे लिखें?
यह इस चरण का सबसे महत्वपूर्ण हिस्सा है, और शुरुआती लोग इसे सबसे अधिक गलत करते हैं।
सभी रेफरेंस इमेजेज को एक साथ अपलोड करें, यानी कि मेंग एक साथ कई रेफरेंस इमेजेज अपलोड करने की सुविधा देता है—बस इमेजेज को चैट बॉक्स में ड्रैग कर दें। आपके पिछले अध्याय में तैयार किए गए सभी मटीरियल, जैसे कि किरदार के तीन दृश्य, सीन रेफरेंस इमेजेज, फोर-पैनल या नाइन-पैनल स्टोरीबोर्ड, सभी को एक साथ ड्रैग कर दें, ताकि मेंग इन इमेजेज की जानकारी को समेटकर वीडियो जनरेट कर सके।
यहाँ कई नए उपयोगकर्ता एक गलती करते हैं, वे दृश्य में क्या है उसे फिर से वर्णित कर देते हैं। अर्थात्, सपना आपके द्वारा अपलोड की गई छवि को पहले से ही देख सकता है, इसलिए आपको इस बात को दोहराने की आवश्यकता नहीं है कि दृश्य में क्या है।
प्रॉम्प्ट में यह लिखना है: दृश्य में क्या चल रहा है, यह कैसे चल रहा है, क्या कैमरा खुद चल रहा है, और प्रत्येक समय अंतराल में क्या हो रहा है।
नीचे दिए गए टेम्पलेट के अनुसार लिखें, प्रत्येक पंक्ति वीडियो के एक समय अंतराल के लिए है:
उपरोक्त सीन ब्रेकडाउन चित्र का उपयोग करके एक वीडियो बनाएं।
[शुरुआती सेकंड से अंतिम सेकंड तक], [शॉट टाइप], [कैमरा मूवमेंट], [किरदार या विषय] + [विशिष्ट क्रिया], ध्वनि: [ध्वनि वर्णन]।

🌟 आवाज़ का वर्णन नए उपयोगकर्ताओं द्वारा सबसे अधिक नज़रअंदाज़ किया जाने वाला हिस्सा है; यदि वीडियो में डायलॉग है, तो केवल "बोलने की आवाज़" लिखना पर्याप्त नहीं है, मॉडल एक संदर्भ के रूप में यादृच्छिक आवाज़ उत्पन्न करेगा। कई वीडियो में किरदार की आवाज़ को समान रखने के लिए, दो तरीके हैं:
1️⃣ पहले अनुच्छेद के ऑडियो को संदर्भ के रूप में उपयोग करें
पहले वीडियो का पहला अनुच्छेद बनाएं, और जब आप परिणाम से संतुष्ट हों, तो इस वीडियो की आवाज़ को अलग से निकाल लें। बाद के हर अनुच्छेद को बनाते समय, इस आवाज़ को साउंड रेफरेंस के रूप में अपलोड करें, ताकि में इस आवाज़ को संदर्भ बनाकर बाद के अनुच्छेदों की आवाज़ को समान बनाए रख सके।
2️⃣ Fish Audio का उपयोग करके रेफरेंस टोन ढूंढें
Fish Audio खोलें, भूमिका के अनुसार ध्वनि खोजें, सुनकर एक नमूना डाउनलोड करें। प्रत्येक वीडियो के लिए इसी रेफरेंस ऑडियो का उपयोग करें, ताकि पूरे वीडियो में ध्वनि समान रहे।
🌟 विराम चिह्नों का उपयोग करके AI आवाज का भाव नियंत्रित करें
AI डिक्शनरी मॉडल के लिए डायलॉग लिखें, बस पाठ डाल देना नहीं। एक ही वाक्य, अलग-अलग विराम चिह्नों के साथ, पूरी तरह से अलग तरह का टोन उत्पन्न कर सकता है।
मूल तर्क यह है: विराम चिह्न विराम को नियंत्रित करते हैं, और विराम भावना निर्धारित करता है।
…… डॉट्स आवाज़ को तोड़ते हैं लेकिन सांस बनी रहती है, जो सोचने, हिचकिचाहट या बात अधूरी छोड़ने के लिए उपयुक्त है।
......! संयोजित उपयोग, दबाव के बाद अचानक विस्फोट है।
( ) कोष्ठक के अंदर की सामग्री की आवाज़ स्वतः कम हो जाती है, और यह आंतरिक एकांतवाद और स्वयं से बात करने के लिए उपयुक्त है।
*सामग्री* तारे के बीच के शब्द औसत से नीचे, धीमे और भारी हो जाते हैं, जिससे महत्वपूर्ण जानकारी पर जोर दिया जाता है।
[] वर्ग कोष्ठक में निर्देश लिखें, उदाहरण के लिए [गहरी सांस लें], [1 सेकंड के लिए रुकें], मॉडल क्रिया करेगा, न कि बोलेगा।
💡छोटी सुझाव:
AI को दिशा का एहसास नहीं होता, यह अक्सर बाएं और दाएं को भ्रमित कर देता है, इसलिए आपको एक «स्थिति संबंधी संदर्भ चित्र» बनाने की आवश्यकता होती है जो AI को बताए कि व्यक्ति कैसे गति कर रहा है, जैसा कि चित्र 1 में दिखाया गया है। एक सरल तरीका यह है: व्यक्ति की गति को तीरों के साथ वर्णित करें और अंत में «तीर हटा दें» जोड़ें।
धीरे लिखें, तेज़ नहीं। मॉडल धीमी गति की क्रियाओं को तेज़ गति की तुलना में काफी अधिक स्थिरता से प्रोसेस करता है। तेज़ गति वाले दृश्यों के लिए, मॉडल को तेज़ गति उत्पन्न करने के बजाय कटिंग स्पीड का उपयोग करें।
प्रत्येक वीडियो सेगमेंट के लिए संदर्भ चित्र अपलोड करें, केवल एक बार अपलोड न करें। मॉडल के पास सेगमेंट के बीच स्मृति नहीं है, इसलिए संदर्भ चित्र अपलोड न करने पर किरदार का रूप विचलित हो जाएगा।

चौथा: फ्रेगमेंट से पूरे वीडियो तक: एडिटिंग वीडियो की अंतिम गुणवत्ता निर्धारित करती है
एडिटिंग और पोस्ट-प्रोडक्शन पूरी प्रक्रिया का वह महत्वपूर्ण चरण है जो इसे पूरा करता है; पहले बनाई गई प्रत्येक क्लिप अलग-अलग होती है, रंग भिन्न हो सकते हैं, गति असंगत हो सकती है, और ध्वनि बिखरी हुई होती है, और एडिटिंग का कार्य इन टुकड़ों को एक पूर्ण कहानी में ढालना है।
वीडियो में संगीत जोड़ने से दर्शकों की भावनाओं को और अधिक प्रभावित किया जा सकता है, और सबटाइटल्स जोड़ने से डायलॉग अधिक स्पष्ट हो जाते हैं। एक ही सामग्री को अच्छी तरह से काटने और खराब तरीके से काटने पर अंतिम परिणाम में एक गुणक का अंतर हो सकता है।
चार चरणों में कार्य करें: सामग्री को व्यवस्थित करें → रंग एक समान करें → ध्वनि जोड़ें → सबटाइटल जोड़ें, और अंत में निर्यात करें।
चरण 1: सामग्री को व्यवस्थित करें
शीर्षक को खोलें, सभी क्लिप्स को सीन के क्रम में टाइमलाइन पर खींचें। इस चरण में रंग और ध्वनि को नज़रअंदाज़ करें, क्रम की पुष्टि करें, पूरे वीडियो की गति को देखें कि कोई समस्या तो नहीं है, और इस चरण में लंबे क्लिप्स के अतिरिक्त हिस्से काट दें।
दूसरा कदम: एक समान रंग योजना
अलग-अलग समय पर बनाए गए फ्रेम्स के रंग तापमान और चमक में सूक्ष्म अंतर हो सकता है, जिससे उन्हें एक साथ रखने पर असंगत लगता है। समाधान: सभी फ्रेम्स को सेलेक्ट करें, 'रेगुलेट' में एक सामान्य फिल्टर लगाएं—पहले सीन के लिए ठंडा नीला टोन, दूसरे सीन के बाद गर्म पीला टोन। हर सीन के अंदर रंग समान रखना पर्याप्त है।
चरण 3: बैकग्राउंड म्यूजिक और साउंड इफेक्ट्स जोड़ें
वीडियो बनाते समय डायलॉग आवाज़ को पहले ही संसाधित कर लिया गया है, इस चरण में मुख्य रूप से दो प्रकार की आवाज़ें जोड़ी जाती हैं: बैकग्राउंड म्यूजिक और वातावरणीय ध्वनियाँ।
बैकग्राउंड म्यूजिक पूरे मूड को निर्धारित करता है, आवाज़ को डायलॉग के 30% से कम पर रखें, और वॉयस को दबाएं नहीं।
चरण 4: सबटाइटल जोड़ें
शीर्षक के लिए शीर्षक का 'स्मार्ट सबटाइटल' फ़ीचर उपयोग करें, फिर गलत वर्तनी की जांच करें और फ़ॉन्ट और स्थिति को समान बनाएं। पृष्ठभूमि या स्वयं से बात करने वाले डायलॉग के लिए, उदाहरण के लिए झुका हुआ या अलग रंग का उपयोग करके सामान्य डायलॉग से अलग शैली का उपयोग करने की सलाह दी जाती है।
पाँच: उपकरण से अभिव्यक्ति तक: AI वीडियो ने वास्तव में क्या बदल दिया है
पिछले लेख, "GPT Image 2.0 के साथ Seedance 2.0: हर कोई हॉलीवुड ब्लॉकबस्टर बना सकता है" में, हमने AI युग में: "वीडियो बनाने" की बाधा कम हो गई है, अब हर कोई हॉलीवुड ब्लॉकबस्टर बना सकता है।
लेकिन कम बाधा होने का मतलब यह नहीं है कि आप इसे कर सकते हैं।
सभी टूल्स खुले हैं, और ट्यूटोरियल्स भी हर जगह उपलब्ध हैं, लेकिन अधिकांश लोग एक ही जगह पर अटक जाते हैं: कभी भी पूरी प्रक्रिया को एक बार पूरा नहीं किया गया।
इस लेख में, Biteye ने आपको एक अस्पष्ट विचार से लेकर एक पूर्ण वीडियो तक एक-एक करके ले जाया है।
पिछले समय में, इस प्रक्रिया के लिए एक पूरी श्रृंखला विशेषज्ञता की आवश्यकता होती थी: पटकथा लेखक, स्किट बनाने वाले, कला, फोटोग्राफी, संपादन, प्रत्येक चरण एक बाधा थी।
और अब, ये चरण गायब नहीं हुए हैं, बल्कि एक प्रक्रिया में संकुचित हो गए हैं।
इसका अर्थ है कि एक और गहरी बदलाव: वीडियो अब 'उत्पादन क्षमता' का उत्पाद नहीं, बल्कि 'अभिव्यक्ति क्षमता' का उत्पाद बनने लगा है।
