Ditulis oleh: Zheng Minfang
Sumber: Pencerapan Wall Street
Apabila OpenAI di seberang lautan nampaknya menekan butang 'pause' untuk model AI generatif Sora, para gergasi teknologi di China pula melancarkan serangan balas dalam bidang ini.
Baru-baru ini, model generasi video AI terbaru ByteDance, Seedance 2.0, dilancarkan dan dengan segera membangkitkan internet berkat kelebihannya seperti input multimodal, pengendalian kamera automatik, dan konsistensi.
Pencipta Game Science, Feng Ji, memberi penilaian yang sangat berat selepas pengalaman mendalam: "Kawasan kandungan pasti akan menghadapi inflasi yang belum pernah berlaku sebelumnya."
Ramalan Fung Chi bukanlah sesuatu yang tidak masuk akal.
Gelombang kesan ini sedang dengan cepat disalurkan ke industri e-dagang, permainan, platform video, penghasilan filem dan siri: dalam bidang e-dagang, had teknikal untuk pengikatan kos rendah dan tapak penggambaran sepenuhnya dihancurkan; dalam industri permainan, tempoh pengeluaran untuk pengesahan konsep dan bahan pembelian dikekalkan pada had maksimum, persaingan menjadi lebih sengit; platform video terpaksa memperbaiki lagi logik penghantaran untuk menghadapi peningkatan tiba-tiba dalam bekalan; manakala proses linear tradisional dalam penghasilan filem iaitu "penggambaran + suntingan", kini menghadapi ancaman penggantungan dimensi oleh paip pengindustrian "kata kunci + penjanaan".
Satu permulaan besar dalam industri berkaitan keuntungan dan penggantian telah bermula.
Kemunculan video yang meluas
Kesakitan terbesar dalam video kecerdasan buatan selama setahun lepas terletak pada aspek penghantaran.
Sama ada Sora, Runway, Keling tempatan, atau Jiemeng yang dikembangkan sendiri oleh ByteDance, semua mempunyai masalah ini. Kebanyakan pencipta sering terjebak dalam permainan "membuka kad", memerlukan penghasilan berulang kali puluhan kali untuk mendapatkan video beberapa saat yang tidak rosak dan konsisten.
Inovasi utama Seedance 2.0 ialah cuba menukar "mempamerkan kemahiran" kepada "narrasi yang boleh diserahkan".
Kebolehan utama yang diperlukan adalah terutamanya dalam tiga aspek:
Satu adalah input multimodal. Dari ujian teknologi 24 jam, pengguna ahli Just Dream hanya perlu membayar 1 yuan untuk mengekalkan yuran automatik dan boleh terus menggunakan Seedance 2.0, menyokong teks, imej, video dan audio sebagai bahan rujukan input, boleh dikatakan hampir semua format yang anda fikirkan boleh dimasukkan untuk digunakan menjana video.
Kedua ialah memahami naratif dan mempelajari penggunaan kamera secara sendiri. Seedance 2.0 menunjukkan pemikiran 'pembuat filem', bukan sahaja mampu memahami logik naratif yang kompleks, tetapi juga secara automatik mengatur bahasa kamera, menyelesaikan operasi penggunaan kamera seperti menghampiri, menjauhkan, menggerakkan dan memindahkan. Video bukan lagi pergerakan asas imej statik, tetapi mempunyai logik naratif yang memberi kesan filem.
Ketiga ialah konsistensi imej. Menurut ujian sebenar oleh Tech365 ke atas pelbagai aplikasi penjanaan video AI di pasaran, masalah wajah rosak dan latar belakang yang jelas dan kabur bercampur-campur sering berlaku semasa objek bergerak.
Namun dari video demo, Seedance 2.0 mempertahankan konsistensi maklumat wajah, gambar dan sebagainya semasa proses pergerakan subjek utama, membolehkan pengungkapan plot yang selaras.
Ini bermakna, penjanaan video AI sedang berubah daripada mainan kepada alat. Keupayaan untuk menukarkan penjanaan video kepada paip industri piawai membolehkan "setiap orang adalah pengarah" tidak lagi sekadar slogan kosong, dan ini juga akan secara besar-besaran mengurangkan kos penghasilan video.
Feng Ji menggambarkan perubahan ini sebagai "kelaparan".
"Kos penghasilan video umum tidak lagi boleh mengikuti logik tradisional industri filem dan televisyen, tetapi secara beransur-ansur akan hampir kepada kos sut pengiraan. Bidang kandungan pasti akan mengalami inflasi yang belum pernah berlaku sebelumnya, dan struktur organisasi serta proses penghasilan tradisional akan sepenuhnya diubah suai. Saya yakin, sesiapa sahaja yang pernah menggunakannya pasti akan segera memahami ramalan ini bukanlah satu kebimbangan yang tidak perlu," kata Feng Ji.
Gelombang pertama kesan
Apabila kos sut penghasilan video hampir sifar, model perniagaan yang bergantung kepada struktur kos lama akan menjadi yang pertama terjejas.
Empat sektor utama iaitu e-dagang, permainan, platform video, dan pengeluaran filem mungkin sektor pertama yang terjejas.
Rasa gempa yang paling terus terang muncul terlebih dahulu dalam bidang e-dagang.
Pameran produk, aksi skrin dan video penerangan ciri secara asasnya tidak bergantung pada naratif seni yang kompleks, tetapi pada penghantaran maklumat yang jelas.
Dengan populariti Seedance 2.0, had untuk peniaga mendapatkan keupayaan video telah sepenuhnya dihapuskan. Syarikat pengikatan video bawah tanah yang sebelum ini bergantung pada "perbezaan maklumat" dan "had teknikal" untuk mengekalkan operasi mereka, serta tapak penggambaran Taobao akan menghadapi musim sejuk, dan penghasilan video mungkin akan berpindah dari perkhidmatan pengikatan profesional ke pengurusan harian sendiri oleh peniaga.
Berbanding dengan perniagaan dalam talian, kesan model penjanaan video AI terhadap permainan mungkin masih terhad, tetapi revolusi telah mula berlaku secara senyap.
Kos video bahan kuantiti pembelian, konsep pengesahan, dan pengasingan dunia mempunyai penurunan secara eksponen. Lebih banyak projek akan disahkan pada peringkat awal dan juga akan dikeluarkan pada peringkat awal.
Sumber dalaman syarikat permainan di Beijing memberitahu TechCrunch bahawa syarikat itu telah memulakan ujian kecil untuk Seedance 2.0.
Model penjanaan video AI juga sedang menukar logik pengedaran platform video.
Bagi platform seperti Douyin dan Kuaishou, video yang dijana oleh model seperti Seedance 2.0 membawa lonjakan bekalan kandungan, memaksa platform memindahkan daya saing utama mereka sepenuhnya kepada mekanisme 'penapisan dan penghantaran', contohnya siapa yang algoritma mereka lebih tepat dalam menapis emas dari kandungan AI yang terhasil dalam kuantiti yang besar, dan siapa yang mempunyai kecekapan pengubahsuaian komersial yang lebih tinggi, dialah pemenangnya.
Dalam bidang filem dan televisyen, keupayaan penceritaan Seedance 2.0 menggunakan pelbagai kamera mungkin akan membentuk semula proses pengeluaran.
Pembuatan sebuah karya filem atau siri pada masa lalu biasanya mengikuti proses industri linear yang ketat: bermula dengan pengambilan bahan mentah yang banyak, kemudian disunting oleh jurusunting di bilik pasca pengamiran untuk memilih, menyambung dan membina logik cerita.
Namun dalam logik Seedance 2.0, sempadan ini semakin kabur.
Dalam sesi penggambaran, pemandangan masa depan wujud kemungkinan dijana dengan kos rendah oleh model AI; model itu sendiri mempunyai kefahaman terhadap penggerakkan kamera dan irama naratif, pada saat video dijana sebenarnya sudah selesai secara serentak kerja "penguntingan".
AI kini bukan sahaja menghasilkan bahan baku yang tidak berkaitan, tetapi terus menyerahkan "hasil akhir" yang mempunyai hubungan masa dan ruang yang selaras.
Ini bermakna, proses penghujah yang memakan masa dalam penghasilan filem dan siri tradisional menghadapi risiko dikenai serangan algoritma "penyusutan dimensi".
Aliran kreatif akan datang mungkin bukan lagi "penggambaran + pengsuntingan", tetapi "kata kunci + penjanaan", fungsi jurusuntings akan berubah dari "pengendali" kepada "jurutera arahan" atau "pemantau estetik".
Walaupun video yang dijana Seedance 2.0 semasa bukanlah sempurna secara peratusan, dengan butiran logik, gambar dan sebagainya masih memerlukan peningkatan, dalam konteks kelajuan iterasi teknologi yang jauh melebihi jangkaan pasaran, masalah-masalah ini tidak akan menjadi halangan di masa depan yang tidak jauh lagi.
"Moat" IP
Kemampuan "remastering" Seedance 2.0 yang luar biasa memberi tekanan yang belum pernah berlaku sebelumnya kepada pihak pemegang hak cipta, sementara membenarkan orang biasa menikmati keseronokan mencipta.
Baru-baru ini, banyak kandungan "rekaan semula" dan "parodi" filem klasik Stephen Chow tersebar secara meluas di platform video pendek.
Dengan bantuan kekuatan pengiraan model penjanaan video AI, ekspresi muka, gelak tawa, dan gaya dialog klasik Zhou Xingchi telah diklon secara besar-besaran oleh pengguna dengan kos yang rendah, malah menghasilkan banyak cerita pelik yang tidak pernah berlaku.
Ini dengan cepat menarik perhatian kumpulan Stephen Chow.
Zhou Xingchi pengurus Chen Zhenyu secara terbuka mempertikaikan: "Ingin bertanya, adakah ini dianggap melanggar hak (khususnya penyebaran yang besar dalam dua hari ini), saya percaya pencipta sudah pasti mendapat keuntungan, dan adakah platform tertentu membiarkannya tanpa mengambil tindakan memberikannya kepada pengguna untuk dihasilkan dan diterbitkan?"
Soalan ini seolah-olah membongkar kebimbangan hak cipta dalam era kecerdasan buatan, tetapi dari segi logik perniagaan, ini justru membuktikan betapa langkanya IP terbaik dalam era kecerdasan buatan.
Di masa depan yang penuh dengan banjir kandungan AI yang dijana, teknologi itu sendiri bukan lagi penghalang, kerana setiap orang mempunyai alat Seedance 2.0 yang sama.
Halangan sebenar masih dipegang oleh pemilik IP.
Justru kerana pasaran penuh dengan banyak "tiruan berkualiti tinggi" dari Stephen Chow, barulah menunjukkan ketidakbolehtukarn IP "sebenar·Stephen Chow".
Apabila bekalan kandungan bukan sahaja berlebihan tetapi juga mengalami "kelonggaran kuantiti wang", masa dan perhatian pengguna akan menjadi lebih mahal daripada sebelumnya. IP klasik yang telah diuji semasa dan mempunyai daya tembusan emosi yang hebat sahaja yang mampu menarik perhatian pengguna dengan serta-merta.
Dengan kata lain, AI memang menurunkan ambang masuk untuk penghasilan, tetapi memartabatkan nilai "keterkesanan" secara tidak terbatas.
Peluang bagi pemilik IP tetap cerah. Aset IP yang telah dikumpulkan selama bertahun-tahun tidak hanya akan menjadi sasaran pelanggaran hak, tetapi juga boleh mengalami peningkatan nilai komersial secara eksponen melalui lesen sah di bawah daya leverage AI melalui tangan penulis yang tidak terhitung.
Dari pelancaran Sora 1.0 oleh OpenAI pada Februari 2024 yang menjadi model penghasil video AI global pertama yang menyokong penghasilan video sehingga 60 saat, sehingga kini Seedance 2.0 milik ByteDance mencapai penghasilan filem naratif audio asli 60 saat melalui input multimodal, hanya memerlukan masa 2 tahun sahaja.
Di era pembangunan teknologi yang pesat ini, setiap industri sedang berada di persimpangan jalan: kos operasi sedang ditekan secara tidak terhad, pekerjaan berkala dan berulang yang bergantung kepada tenaga kerja dan tempoh masa akan digantikan secara tidak belas; pada masa yang sama, nilai IP dan kreativiti sedang diperbesar secara tidak terhad.
Apabila alat menjadi mudah didapati, keputusan ketinggian kandungan tidak lagi bergantung pada sama ada seseorang tahu menggunakan perisian atau tidak, tetapi sama ada konsep seseorang tentang dunia cukup unik.
