Yazar: Changan I Biteye İçerik Takımı
Video kesim deneyimi olmayan biri, hikayeli, diyaloglu ve kamera geçişlerine sahip bir AI kısa videosu oluşturabilir mi?
Evet, ve tüm süreç yarım günden az sürer.
Bu makale, bir hikâye düşünmek → sahne bölümlerine ayırmak → video oluşturmak → videonun düzenlemesini yapmak sürecini öğretir.
Herhangi bir temel bilgiye gerek yok, bir kez takip edin ve tam bir AI kısa videosu elde edin.
Bir, Fikirden Hikâyeye: AI Videoları Tek Bir İfadeyle Oluşmaz
Çok sayıda kişi AI videoları oluşturmanın ilk adımını Jiemeng'i açıp giriş kutusuna bakarak başlar, ne yazacağını bilmez. Birkaç kelime yazıp oluşturulan sonucun hayal ettiğiyle çok farklı olduğunu görür ve aracın kullanışlı olup olmadığını ya da kendisinin talimat yazmayı bilip bilmediğini sorgular.
Örneğin, “Biteye Küçük Kız Kardeş’in Kripto Dünyasında Büyük Bir Kişi Olarak Yeniden Doğuşu” gibi bir şey düşünüyorum; bu bir fikirdir, bir hikaye değil.
Bir fikir, bir yön verir ve size genel olarak ne yapmanız gerektiğini söyler. Bir hikaye, bir yapıdır ve her sahne için ne çekmeniz gerektiğini söyler. Fikirden hikayeye geçiş arasında bir çalışma gereklidir; bu çalışma senaryo planlamadır.
En basit yol, herhangi bir LLM’yi açıp zihninizdeki bulanık fikri doğrudan ona söylemek ve hikayeyi onunla birlikte geliştirmektir. Tüm detayları kendiniz düşünmenize gerek yok; sadece bir yön verin, gerisini onunla birlikte çıkarabilirsiniz.
Hikâye çizgisi belirlendikten sonra doğrudan sahne bölümlerine ayırmayın, önce anlatım ritmine göre birkaç büyük parçaya bölün ve her parçanın temel olarak neyi ifade ettiğini açıkça belirleyin. Bu adım, genel ritmi kontrol etmek ve bir bölümün aşırı uzun ya da aceleci olmasının önünü almaktır.
Bir tek videonun en uzun süresi 15 saniyedir; pratikte 12 saniyeden kısa olanlar en kararlıdır ve görüntü sorunları olma olasılığı en düşüktür. 1 dakikalık bir sonuç videosu, her bir parçanın ortalama 10 saniye olduğu varsayımıyla yaklaşık 5 parça gerektirir.
Hikayemizi beş parçaya böldük:
Bölüm bir: Giriş, temel görev sahneyi ve karakterleri tanıtmaktır.
Paragraf 2: Geçiş, temel görevi zaman çizelgesini açıklamaktır.
Paragraf üç: Karakterin kafasının karışık olmasından ayılmaya geçişini gösterin.
Bölüm dört: Varlığı hesapla, duyguları zirveye çıkar.
Bölüm 5: Dönüşü tamamlayarak girişe kapalı bir döngü oluşturun.

Paragraf belirlendikten sonra, her paragrafı ayrıntılı sahne tanımlarına ayırın. Her sahne için dört unsuru yazın: görsel ana nesne, konum, ne yapıyor, çekim açısı. Sahne tanımlarında hareket yazmayın, yalnızca statik anları tanımlayın.
Paragraf 1'in senaryosunu AI sohbet kutusuna kopyalayın, "Lütfen Senaryo 1'e göre sahne betimlemeleri oluşturun" yazın, aşağıdaki sonuç elde edilir👇

İkinci: Hikâyeden görsellere: Karakterleri, sahneleri ve sahne dizaynlarını öncelikle belirleyin
Bu bölüm, tüm süreçte en temel bölümdür; burada oluşturduğunuz görsellerin kalitesi, nihai videonun kalite sınırını doğrudan belirler.
Öncelikle üç görünümü oluşturun, ana karakterinizi sabitleyin
Herhangi bir sahne tasviri oluşturmadan önce, ilk adım ana karakterin üç görünüşlü çizimini yapmaktır.
Üç görünüş, aynı karakterin ön, yan ve arka üç resmidir ve bu karakterin dış görünüşünü sabitlemeyi amaçlar; ardından herhangi bir sahne oluşturulduğunda, karakterin tutarlılığını korumak için bu üç resme başvurulur.
Bu adımı atlayıp doğrudan sahne görselleri oluşturursanız, her seferinde farklı karakterler ortaya çıkacak, saç şekli değişecektir, yüz şekli değişecektir ve bu video tamamen yapılamaz hale gelecektir.
ChatGPT/Seedream’i açın, sohbet kutusuna yazın:
Biteye Küçük Kızkardeş'in üç görünüşlü bir çizimi oluşturun
Yapay zeka, aynı kişinin üç farklı açıdan oluşan bir resim oluşturacaktır. Oluşan kişi, istediğinizden farklıysa, referans resmini yükleyebilirsiniz.
Üç görünümden memnun olduktan sonra bu resmi indirin ve sonraki her video üretimi sırasında referans olarak yeniden yükleyin.

Yeni bir sahne referans resmi oluşturun, arka planınızı sabitleyin.
Rol belirlendikten sonra, aynı mantıkla sahnenizi de ayrı bir referans resmi olarak oluşturun, sohbet kutusuna "Bana bir ofis resmi oluşturun" yazın.

Resim serisi oluşturmadan önce temel bir kavramı anlamak gerekir: kamera açısı, videonun en küçük ifade birimidir.
Kamera da konuşur, farklı kamera açıları farklı bilgiler iletir; yaygın açılar şunlardır:
Genel görünüm: Bilgiyi aktaran; izleyici, genel görünüm sayesinde sahnenin nerede olduğunu ve hangi karakterlerin olduğunu anlar.
Orta manzara: Hikâyeyi ilerleten, hareketleri ve ifadeleri net olarak görülebilen, anlatımda en çok kullanılan manzara türüdür.
Yakın çekim: Duyguları yaratmak için sadece yüz, el veya belirli bir anahtar nesne çekilsin, detaylar büyütülsün ve izleyiciye güçlü bir duygusal etki sunulsun.
Bir sahneyi anladıktan sonra, bir adım daha yukarı çıkmak gerekir: bir video, bir sahne değil, ritme göre bir araya getirilmiş birden fazla sahnenin sonucudur.
Gerçek üretimde, bir video'nun kamera yapısını düzenlemek için genellikle «dört kare» ve «dokuz kare» kullanırız—yani bir video içinde 4 veya 9 kamera açısıyla tam bir ifade sağlanır.
Dört kare ve dokuz kare seçimi, temelde ritmin kontrolüdür:
Yavaş tempolu bölümler: Örneğin, sahnenin tanıtımı veya sonun duygusal kapanışı için dört kare yeterlidir; dört kare, her bir sahnenin nefes almasına yeterli alana sahiptir.
Hızlı tempolu bölümler: Örneğin dövüş sahnelerinde, gerilim yaratmak için kamera açıları sık sık değiştirilmelidir; bu durumda 3x3 ızgara kullanılarak dokuz kamera açısı bir video içinde birleştirilir ve elde edilen kesim tamamen farklı bir his verir.
Kameraların ve ritmin anlaşılmasının ardından, soyut hikâyeyi somut görsellere dönüştürmek için gerçek üretime geçilebilir.
Karakterin üç görünümü ve sahne referans resimleri hazırlandıktan sonra, sonraki adım, önce yazılan sahne betimlemelerini tek tek görselleştirmektir. Nedeni basittir: AI, 'sürekli değişen bir süreç' yerine 'belirli tek çerçeveler' ile daha iyi çalışır ve çekim oranını büyük ölçüde azaltır.
Şu şekilde yapılır:
Her bir sahne oluşturmak için önce karakterin üç görünümünü ve ilgili sahne referans resimlerini ChatGPT sohbetine yükleyin, ardından önceki sahne görselinin üretme talimatını girin.
Hikâye özeti ve sahne betimlemelerine göre (önceki AI tarafından oluşturulan sahne metinleriyle birlikte) dört karelik bir sahne dizisi görseli oluşturun, sahne görseli ve karakter görseli ekleyin.
Model, sağladığınız sahne bilgilerine göre bu sahneyi dört görüntüye ayırır ve karakter ile sahne tutarlılığını korur; etki şu şekildedir:

💡 Küçük İpuçları: Metinden Görsel Oluşturmada Sık Karşılaşılan Bazı Hatalar, Önceden Bilinirse Çok Sayıda Deneme Tasarrufu Sağlanır:
Telefonu oyun oynarken tutan bir karakterin sahnesi oluşturmak için, telefon ekranı otomatik olarak izleyiciye döner. AI, "okunabilir içerik" sağlamayı amaçlar; bu nedenle oyun oynamak görselin bir gürültü kaynağı haline gelir. Doğru yaklaşım şudur: "İki el ile telefonu yatay tutun, ekranı karakterin yüzüne doğru, telefonun arka yüzü kameraya dönük olsun."
Meslek adları, AI'nın tam bir sahne oluşturmasına neden olur: "hemşire" yazarsanız, AI hastane ile ilişkilendirir; "şef" yazarsanız, AI mutfak ile ilişkilendirir. Doğru yaklaşım şudur: Gerçekten istediğiniz kıyafeti tanımlayın, meslek adlarını kullanmayın.
Metinden görsel oluşturma yalnızca statik görüntüler üretebilir; "başını döndürüyor" için karşılık gelen bir görsel durum yoktur. Doğru yaklaşım: yalnızca bu karede bulunan şeyleri tanımlamaktır.

Üç: Görüntüden Videoya: İpuçları eylem yazmalı, görüntüyü yeniden yazmamalı
Kareler tamamen hazır, şimdi onları hareketli videolara dönüştüreceğiz.
🌟Kayıt Olun ve Rüya Görün
Tarayıcınızı açıp “Ji Meng AI” arayın, resmi web sitesine girin. Sağ üstteki Giriş’e tıklayın, Douyin hesabı veya telefon numaranızla kayıt olabilirsiniz, Çin içinde doğrudan erişim mümkündür.
Yeni kullanıcılar 15 saniyelik bir videoyu ücretsiz oluşturabilir. Başlangıç üyeliği gerekiyorsa, Biteye Küçük Öğrenci, tüm platformlarda Seedance 2.0 fiyatlarını karşılaştırdı; ayrıntılar için: “Tüm platformlarda en düşük maliyetle Seedance 2.0 aboneliği almanın yolu!”
🌟 Video için nasıl bir prompt yazılır?
Bu, bu adımdaki en kritik noktadır ve yeni başlayanların en çok yanlış yaptığı yerdir.
Tüm referans görsellerini aynı anda yükleyin; Dream, aynı anda birden fazla referans görsel yükleme desteği sunar. Görselleri doğrudan sohbet kutusuna sürükleyin. Bir önceki bölümde hazırladığınız tüm malzemeleri—karakter üç görünüşü, sahne referans görselleri, dört veya dokuz kare kompozisyon görsellerini—tek seferde yükleyin; Dream, bu görsellerin tüm bilgilerini birleştirerek video oluşturacaktır.
Burada birçok yeni kullanıcı, ekranın içindekileri yeniden tanımlamak hatasını yapar. Dream, zaten yüklediğiniz resmi görebiliyor, bu yüzden ekranın içindekileri tekrar söylemenize gerek yok.
Sahnede ne hareket ediyor, nasıl hareket ediyor, kamera hareketli mi, ve her zaman aralığında ne oluyor.
Aşağıdaki şablona göre yazın, her satır videodaki bir zaman aralığına karşılık gelir:
Yukarıdaki sahne tasviriyle bir video oluşturun.
[Başlangıç saniyesi ile bitiş saniyesi arasında], [manzara], [kamera hareketi], [karakter veya ana nesne]+[spesifik eylem], ses efekti: [ses tanımı].

🌟 Ses tanımı, yeni başlayanlar tarafından en çok gözden kaçırılan kısımdır. Videoda diyalog varsa, yalnızca “konuşma sesi” yazmak yeterli değildir; model, referans olarak rastgele bir ses oluşturur. Birden fazla videoda karakter seslerinin tutarlı olmasını sağlamak için iki yöntem vardır:
1️⃣ İlk paragrafın sesini referans alın
İlk video parçasını oluşturun, oluşturulan sonuca memnun kaldığınızda bu video parçasının sesini ayrı olarak dışa aktarın. Sonraki her bir parçayı oluştururken, bu sesi ses referansı olarak yükleyin; böylece ses tonu, sonraki bölümlerin sesini üretirken referans alınarak ses tutarlılığı sağlanacaktır.
2️⃣ Fish Audio ile referans ses tonu bulun
Fish Audio'yu açın, karakterin ruh haliyle uyumlu sesleri arayın, dinledikten sonra bir referans sesi indirin. Her video parçası oluştururken bu referans sesini kullanın ve tüm videoda ses tutarlılığını koruyun.
🌟 Noktalama işaretleriyle AI seslendirme tonunu kontrol edin
AI seslendirme modeline senaryo yazın, sadece metni girmekle kalmayın. Aynı cümle, noktalama işaretleri farklı olduğunda tamamen farklı bir tonla çıkarılabilir.
Temel mantık: noktalama işaretleri duraklamayı kontrol eder, duraklamalar duyguyu belirler.
…… Kesikli sesi keser ama nefesi kesmez, düşünme, tereddüt etme ve sözün bitmemesi durumları için uygundur.
……! Kombinasyon olarak kullanıldığında, bastırmanın ardından ani bir patlama olur.
() Parantez içindeki içerik ses seviyesi otomatik olarak düşürülür, içsel monolog ve kendi kendine konuşma için uygundur.
*İçerik* Yıldızlarla çevrili kelimeler daha düşük, daha yavaş ve daha ağırlıklı olacak ve kritik bilgileri vurgulamak için kullanılacaktır.
[] Köşeli parantez içindeki talimatlar, örneğin [Derin bir nefes alın], [1 saniye durakla], model bu eylemleri gerçekleştirecektir, okumaz.
💡 Küçük İpuçları:
Yapay zeka yön algısına sahip değil, genellikle sağ ve solu ayırt edemiyor; bu nedenle, karakterlerin nasıl hareket ettiğini anlatmak için ek olarak «konum ilişkisi referans şeması» gerekiyor, aşağıda Şekil 1'de gösterildiği gibi. Basit bir yöntem de: hareket izini oklarla tanımlamak ve sonuna «okları sil» eklemektir.
Yavaş yazın, hızlı yazmayın. Model, hızlı hareketler yerine yavaş hareketleri çok daha stabil şekilde işler. Hızlı tempolu sahneler için, modelin hızlı hareketleri üretmesi yerine kesit hızını kullanın.
Her video parçası için bir referans resmi yükleyin, yalnızca bir kez yüklemeyin. Model parçalar arasında belleğe sahip değil, referans resmi yüklenmeyen parça için karakter görünümü sapma gösterecektir.

Dört: Parçalardan Tam Bir Videoya: Düzenleme, Videonun Son Kalitesini Belirler
Düzenleme ve sonrası işlem, tüm süreçteki son dokunuştur; önce üretilen her bir malzeme bağımsızdır, tonlamalar farklı olabilir, tempolar tutarsız olabilir ve sesler dağılmıştır; düzenleme, bu parçaları bir bütün hikâyeye dönüştürmektir.
Videoya müzik eklenerek izleyicilerin duyguları daha iyi harekete geçirilebilir, alt yazılarla diyaloglar daha net hale gelir; aynı malzeme, iyi kesilirse ve kötü kesilirse, nihai çıktı bir ölçek fark oluşturabilir.
İşlem dört adımda: malzeme sıralama → renk tonunu birleştirme → ses ekleme → alt yazı ekleme, ardından dışa aktar.
Adım 1: Malzemeleri sıralayın
KapCut'u açın, tüm parçaları sahne sırasına göre zaman eksenine sürükleyin. Renk ve sesi şu anda göz ardı edin, sırayı doğrulayın ve genel ritmi kontrol edin; gereksiz kısımları bu aşamada uzun parçalardan kesin.
İkinci adım: Renk tonunu birleştirin
Farklı zamanlarda oluşturulan sahnelerin renk sıcaklığı ve parlaklığı hafifçe farklı olabilir; bunları bir arada göstermek bütünlüğü bozabilir. Çözüm: Tüm sahneleri seçin, "Düzenle" bölümünde tek bir filtre uygulayın. Sahne 1 için soğuk mavi ton, sahne 2'den sonra sıcak sarı ton kullanın; her sahne içindeki ton tutarlılığını korumak yeterlidir.
Adım 3: Arka plan müziği ve ses efektleri ekleyin
Diyalog sesleri, video oluşturulurken zaten işlenmiştir; bu adımda ana olarak iki tür ses eklenir: arka plan müziği ve çevre ses efektleri.
Arka plan müziği, genel duygusal havayı belirler; ses seviyesi diyalogların %30'unun altına düşürülmelidir ve sesi bastırmamalıdır.
Adım 4: Altyazı ekleyin
Siyahımlı "Akıllı Alt Yazı" özelliğiyle diyalogları otomatik olarak tanımlayın, tanımlama tamamlandıktan sonra yazım hatalarını kontrol edin, yazı tipini ve konumunu birleştirin. Açıklamalar veya kendi kendine konuşmalar için normal diyaloglardan farklı bir stil önerilir, örneğin italik veya farklı bir renk.
Beş: Araçlardan ifadeye: AI videoları gerçekten neyi değiştirdi
Daha önceki makalede olan "GPT Image 2.0 ile Seedance 2.0: Herkes Hollywood filmi çekebilir" başlıklı yazıda, AI çağında "video çekme" engelinin düştüğünü ve artık herkesin Hollywood filmi çekebileceğini düşündük.
Ancak düşük bir eşik, bunu yapabileceğiniz anlamına gelmez.
Araçlar herkes tarafından erişilebilir ve eğitimler her yerde mevcut, ancak çoğu kişi aynı noktada takılıyor: hiçbir zaman tamamen tamamlamamışlar.
Bu makalede Biteye, bulanık bir fikirden başlayarak size tam bir video oluşturma sürecini adım adım gösterdi.
Geçmişte bu süreç, senaryo yazarı, kompozisyon, görsel sanatlar, kamera ve kesim gibi tam bir profesyonel bölünmüşlük gerektirirdi; her aşama bir engel oluştururdu.
Şu anda bu aşamalar kaybolmadı, sadece bir süreçte sıkıştırıldı.
Bu, daha temel bir değişiklik anlamına geliyor: videolar artık «üretim kapasitesinin» ürünü değil, «ifade kapasitesinin» ürünü haline geliyor.
