Seedance 2.0とGPT 2.0を使用してバズる短編ドラマを作る方法

著者：Changan I Biteye コンテンツチーム

動画を一度も編集したことがない人が、ストーリーがあり、セリフがあり、カット編集が施されたAI短视频を作れるでしょうか？

できますし、全体のプロセスは半日以内で完了します。

この記事では、物語を考える → シーンに分解する → 動画を生成する → 編集して完成させるまでの手順を解説します。

何も基礎知識は必要ありません。一度手順に従ってみてください。完全なAI短视频が作れます。

一、アイデアから物語へ：AI動画は一つのプロンプトで生成されるものではない

多くの人がAI動画を作成する最初のステップとして、即夢を開き、入力欄を見つめて、何を書けばいいのかわからなくなる。いくつか文字を打ち込んで生成された結果が想像と大きく異なり、ツールが使いにくいのか、それとも自分自身がプロンプトの書き方がわからないのかと疑い始める。

たとえば、「Biteyeの小師妹が仮想通貨業界で大物に転生する」というのは、アイデアであり、物語ではありません。

アイデアは方向性であり、何をすべきかの大まかな手順を示す。ストーリーは構造であり、それぞれのシーンで何を撮るかを示す。アイデアからストーリーへ至るまでには、スクリプトプランニングという作業が必要である。

最も簡単な方法は、任意のLLMを開いて、頭の中にぼんやりと浮かんでいるアイデアをそのまま伝えて、物語を膨らませてもらうことです。すべての細部を自分で考え抜く必要はなく、方向性だけ提示すれば、残りの部分はそれと一緒に導き出せます。

物語の筋道を決定した後、すぐにシーンに分割せず、ナラティブのリズムに従っていくつかの大きなセクションに分け、各セクションの核心的な出来事を明確にします。このステップは、全体のリズムをコントロールし、あるセクションが長すぎたり短すぎたりしないようにするためです。

即夢の動画は最大15秒ですが、実際の操作では12秒以下が最も安定し、映像の問題が発生する確率が最低です。1分の完成品を作成する場合、各セグメントを平均10秒とすると、約5つのセグメントが必要です。

私たちの物語を5つのセクションに分けます：

段落一：オープニングで、シーンと登場人物を紹介することが主な目的です。
セクション2：タイムラインの説明が主な目的です。
段落3：キャラクターが混乱から目覚めるまでの変化を描く。
財富を計算し、感情を高潮に導く。
セクション5：リバースを完了し、オープニングとクローズを結びつける。

Seedance 2.0

パラグラフを確定した後、各パラグラフを具体的なショットの記述に分割する。各ショットは4つの要素を記述する：画面上の主体、位置、何をしているか、撮影角度。ショットには動きを含めず、静止した瞬間だけを描写する。

パラグラフ1のスクリプトをAIチャットボックスにコピーし、「シーン1のスクリプトに基づいてスクリーンショットの説明を生成してください」と入力すると、以下のようになります👇

Seedance 2.0

二、物語から映像へ：まずキャラクター、シーン、コマ割りを決定する

この章はプロセス全体で最も核心的な部分であり、ここで生成する画像の品質が、最終的な動画の品質上限を直接決定します。

最初に三面図を作成し、あなたの主人公を固定してください

最初のステップとして、任何のスクリプトボードを生成する前に、主人公の三面図を作成します。

三視図とは、同じキャラクターの正面、側面、背面の3枚の図を指し、このキャラクターの外見を固定することで、後でどのようなシーンを生成する場合でも、この3枚の図を参照してキャラクターの一貫性を保つことを目的としています。

このステップをスキップして直接スクリプト画像を生成すると、毎回生成されるキャラクターの外見が異なり、髪型や顔立ちが変わってしまい、この動画は全く作成できなくなります。

ChatGPT/Seedreamを開き、チャットボックスに入力してください：

Biteyeの小師妹の三視図を生成してください

AIは、同じ人物の3つの角度を含む画像を生成します。生成された人物が希望と大きく異なる場合は、参照画像をアップロードしてください。

三視図に満足したら、この画像をダウンロードし、今後毎回動画を生成する際に参照用として再アップロードしてください。

Seedance 2.0

シーンの参照画像を再作成し、背景を固定してください

役割を確定した後、同じロジックで、あなたのシーンもまず別に参照画像を生成してください。チャットボックスに「オフィスの画像を生成してください」と入力してください。

Seedance 2.0

分鏡図の作成を始める前に、基本的な概念を理解する必要があります：ショットはビデオの最小の表現単位です。

カメラも話すことができます。異なるショットの距離感では、伝わる情報が異なります。一般的なショットの距離感には以下の種類があります：

全体像：観客は全体像を通じて、このシーンがどこで、どのキャラクターがいるかを把握します。
中景：シーンを進めるために使われ、動作や表情がはっきりと見える、物語で最も頻繁に使用される構図です。
クローズアップ：感情を生み出すために、顔、手、または重要なプロップのみを撮影し、細部を拡大して視聴者に強い感情的インパクトを与える。

単一のショットを理解した後、さらに一歩進んで考える必要があります。1本の動画は1つのショットではなく、リズムに合わせて複数のショットが組み合わされた結果です。

実際の制作では、通常「4分割」や「9分割」を使って動画のショット構成を整理します。つまり、1つの動画内で4つまたは9つのショットを配置して、全体の表現を完了します。

4マスと9マスの選択は、本質的にリズムの制御である：

リズムの遅いセクション：たとえばオープニングで環境を説明したり、エンディングで感情を収めたりする場合、4コマグリッドで十分です。4つのショットがあれば、それぞれの映像に十分な呼吸空間が与えられます。
リズムの速いシーン：たとえば戦闘のクライマックスでは、緊張感を生み出すためにカメラショットを密集させて切り替える必要があります。このとき、九宮格を使って9つのショットを1つの動画に圧縮すると、編集された感じがまったく異なります。

カメラワークとリズムを理解した後は、抽象的な物語を具体的な映像に変える実際の制作に進みます。

人物の三面図とシーンのリファレンス画像を準備したら、次にやるべきことは、前に書いたスクリプトの各シーンを一つずつ可視化された画像に変換することです。理由は単純で、AIは「連続して変化するプロセス」よりも「確定された単一フレーム」を処理する方が得意であり、これによりランダム性を大幅に減らすことができます。

具体的な方法は：

毎回1つのカットを生成し、まずキャラクターの三面図と対応するシーンのリファレンス画像をChatGPTの会話にアップロードし、その後、先ほど作成したカット図の生成プロンプトを入力する。

物語のあらすじ＋シーン説明（以前にAIが生成したシーン用テキストを添付）に基づき、4コマのセリフ付きシーン図を生成し、背景図と人物図を付けてください。

モデルは、ご提供いただいたシーン情報に基づいて、このショットを4つの画面上に分割し、人物と背景の一貫性を保ちます。効果は以下の通りです：

Seedance 2.0

💡小ヒント：テキストから画像生成にはいくつかの頻繁な落とし穴があります。事前に知っておくことで、多くの試行を節約できます。

人物がスマホでゲームをしているシーンを生成したい場合、スマホの画面が自動的に観客に向いてしまう。AIのロジックは「コンテンツを読みやすくする」ことだが、ゲームが画像の汚染源となってしまう。正しい方法は：「両手でスマホを横向きに持ち、画面を人物の顔に向ける、スマホの背面をカメラに向ける」ことである。
職業名はAIに一連のシーンを想起させます：「看護師」と書けばAIは病院を、「シェフ」と書けばAIは厨房を想起します。正しい方法は：職業名を言わず、本当に望む服装だけを描写することです。
テキストから画像を生成する場合、静止画像のみを生成できます。「首を振り向いている」には対応する視覚的状態がありません。正しい方法は、このフレームに存在するものだけを記述することです。

Seedance 2.0

三、画面から動画へ：プロンプトには動作を記述し、画面を書き直さない

スクリプトはすべて準備ができています。今からこれらを動画にします。

🌟登録して夢を叶えよう

ブラウザを開き、「即夢AI」と検索して公式サイトへアクセスしてください。右上角のログインをクリックし、TikTokアカウントまたは携帯電話番号で登録できます。国内からは直接アクセス可能です。

新規ユーザーは15秒の動画を無料で生成できます。开头会員をご希望の場合は、Biteye小师妹が全プラットフォームでSeedance 2.0の価格を比較しました。詳細は『全網最低コストでSeedance 2.0をサブスクライブするガイド』をご覧ください。

🌟動画のプロンプトはどう書きますか？

これはこのステップで最も重要な部分であり、初心者が最も間違えやすい部分です。

まず、すべての参照画像をアップロードしてください。即夢は複数の参照画像を同時にアップロードでき、画像をチャットボックスに直接ドラッグするだけでOKです。前章で準備したすべての素材——キャラクターの三面図、シーンの参照画像、4コマまたは9コマの絵コンテ図——を一度にすべてドラッグしてください。即夢はこれらの画像の情報を総合的に分析して動画を生成します。

ここでは多くの初心者が、画面に何が表示されているかを再び説明してしまうという間違いを犯します。つまり、夢はすでにあなたがアップロードした画像を見ているので、画面に何があるかを改めて伝える必要はありません。

画面の中で何が動いていて、どのように動いているか、カメラ自体が動いているか、そして各時間帯で何が起こっているかを記述してください。

以下のテンプレートに従って、各行を動画の各タイムスタンプに対応させてください。

上記のスクリプトを参考に、動画を生成してください。

[開始秒から終了秒]、[構図]、[カメラムーブメント]、[キャラクターまたは主体]+[具体的な動作]、音効：[音の説明]。

Seedance 2.0

🌟音声の説明は初心者が最も見落としがちな部分です。動画にセリフがある場合、「会話音」だけでは不十分で、モデルはランダムに音声を生成して参照します。複数の動画でキャラクターの音声を一貫させるには、次の2つの方法があります：

1️⃣最初の音声を参考にしてください

最初の動画セクションを生成し、生成結果に満足したら、その動画の音声を単独でエクスポートしてください。以降の各セクションを生成する際には、この音声を音声の参考としてアップロードすることで、夢がこの音色を基に后续のセクションのボイスを生成し、音声の一貫性を保ちます。

2️⃣ Fish Audio を使って参考音色を探す

Fish Audioを開き、キャラクターの气质に合った音声を検索して、試聴後に参考用に1つダウンロードしてください。各動画を生成する際は、常にこの参考音声を使用し、全体の音声を一貫させます。

🌟ピリオドでAIの音声のトーンを制御

AIボイスモデルにセリフを書くときは、文字をただ入力するだけではいけません。同じ文でも、句読点が異なれば、発音されるトーンはまったく変わってしまいます。

核心ロジックは：句読点が停止を制御し、停止が感情を決定する。

…… 省略号は声を断ちながら息を絶やさず、考え中、ためらっている、言葉が途中で止まっている状態に適しています。

……！組み合わせて使うと、抑圧された後の突然の爆発です。

（）括弧内の内容は音量が自動的に下げられ、息声となり、内面の独白や独り言に適しています。

*内容* 星印で囲まれた言葉は、より低く、よりゆっくり、より重く扱われ、重要な情報を強調します。

[] 方括号内には台詞ではなく指示を書きなさい。たとえば[深呼吸する]、[1秒停止する]。モデルはそれを朗読するのではなく、動作を実行する。

💡小ヒント：

AIには方向感がなく、左右を区別することがよくできません。そのため、人物の動きをAIに伝えるために「位置関係参考図」を別途作成する必要があります。下図1のようになります。簡単な方法として、矢印を使って人物の運動経路を記述し、最後に「矢印を削除してください」と追加してください。
ゆっくりと撮り、速く撮らない。モデルは遅い動作を速い動作よりもはるかに安定して処理できる。速いリズムのシーンが必要な場合は、モデルに速い動作を生成させるのではなく、編集速度で実現することを優先してください。
各動画セクションには参照画像をアップロードしてください。一度だけアップロードしないでください。モデルはセクション間の記憶を持たないため、参照画像をアップロードしないセクションでは、キャラクターの外観がずれます。

Seedance 2.0

四、断片から完成品へ：編集が動画の最終的な品質を決定する

編集と仕上げは、全体のプロセスにおいて画龍点睛のステップです。前段階で生成されたすべての素材は個別であり、色調に差異があり、リズムが不連続で、音声も分散しています。編集の役割は、これらの断片を一つの完璧な物語にまとめ上げることです。

動画に音楽を加えると、視聴者の感情をより引き立て、字幕を追加することでセリフがより明確になります。同じ素材でも、編集の質によって最終的な仕上がりは一桁異なることがあります。

手順は4ステップです：素材を並べる → 色調を統一する → 音声を追加する → 字幕を追加する、最後にエクスポートします。

ステップ1：素材を並べる

剪映を開き、すべてのクリップをシーンの順序に従ってタイムラインにドラッグしてください。色調や音声は一旦無視し、順序を確認した上で全体のリズムをチェックしてください。長すぎるクリップはこの段階で不要な部分をカットしてください。

ステップ2：色調を統一する

異なる時間に生成されたフレームは、色温度と明るさにわずかな差異が生じ、並べると不自然に見えることがあります。対処法：すべてのフレームを選択し、「調整」で一括してフィルターを適用してください。シーン1には冷たい青系のトーン、シーン2以降は暖かい黄系のトーンに切り替え、各シーン内のトーンを一貫させれば十分です。

ステップ3：背景音楽と効果音を追加する

対話音声は動画生成時に既に処理済みであり、このステップでは主にBGMと環境音響を追加します。

背景音楽は全体の情緒のトーンを決定し、音量はセリフの30%以下に抑え、ボーカルを圧倒しないようにしてください。

ステップ4：字幕を追加

剪映の「スマート字幕」機能で会話を自動認識し、認識後は誤字を確認し、フォントと位置を統一してください。ナレーションや独白のセリフは、イタリック体や色を変えるなどして通常の会話と異なるスタイルで区別することをお勧めします。

五、ツールから表現へ：AI動画が本当に変えたもの

前回の記事『GPT Image 2.0がSeedance 2.0を支援：誰でもハリウッド映画を撮れる時代へ』では、AI時代において「動画を撮影」するハードルが下がり、今後誰でもハリウッド映画を撮れるようになると述べました。

しかし、门槛が低いからといって、あなたが作れるというわけではありません。

ツールはすべて公開されており、チュートリアルも至るところにありますが、ほとんどの人が同じ場所でつまずきます：一度も完全に実行したことがないという点です。

本記事でBiteyeは、あいまいなアイデアから一歩一歩進めて、完成した動画を作り出す方法をお伝えしました。

過去、このプロセスには一連の専門分工が必要でした：脚本、絵コンテ、美術、撮影、編集。それぞれの工程が一つの壁でした。

そして現在、これらの工程は消え去ったのではなく、1つのプロセスに圧縮されました。

これはより基本的な変化を意味します：動画はもはや「生産能力」の産物ではなく、「表現能力」の産物になり始めています。