Sora2で良い動画を生成するには、プロンプトの書き方が重要です。実際に使えるプロンプト例と、効果的な動画生成プロンプトを書くためのコツを紹介します。
プロンプトを書く前に:基本原則
動画生成のプロンプトは、ストーリーボードを見たことのない撮影監督に指示を出すようなものです。詳細を省略すると、モデルが即興で補完し、期待した結果が得られない可能性があります。一方で、一部の詳細を開けておくことで、モデルに創造的な自由度を与え、予想外の美しい解釈が生まれることもあります。
何度か試してみて、小さな調整でも大きな変化が生まれることがあります。カメラ、ライティング、アクションの小さな変更が、結果を劇的に変えることがあります。モデルと協力し、あなたが方向性を提供し、モデルが創造的なバリエーションを提供するという関係を築きましょう。
プロンプトでは制御できない部分
プロンプトは動画の内容を制御しますが、いくつかの設定はAPI呼び出し時に設定する必要があり、プロンプトの文章では要求できません。動画の長さ、解像度、モデルバージョンなどです。
動画の長さは4秒、8秒、12秒から選べます。実際に使ってみると、4秒のクリップが最も安定した結果を出しやすく、モデルがあなたの意図を正確に理解しやすいです。プロジェクトが許せば、単一の8秒クリップを生成するよりも、編集で2つの4秒クリップを結合する方が良い結果が得られる場合があります。
解像度については、高解像度ではより多くのディテールと正確なライティングの遷移が生成されますが、低解像度ではソフトさやアーティファクトが生じることがあります。あなたのニーズに合わせて適切な解像度を選んでください。
効果的なプロンプトの構造
明確なプロンプトは、ストーリーボードにスケッチするようにショットを記述します。カメラフレーミングを述べ、被写界深度に注意を払い、アクションをビートで記述し、ライティングとパレットを設定します。被写体をいくつかの特徴的なディテールで固定することで認識可能に保ち、単一の妥当なアクションでショットを追いやすくします。
複数のショットを1つのプロンプトで記述することも有効です。シーケンスをカバーする必要がある場合、各ショットブロックを明確に区別してください:一度に1つのカメラセットアップ、1つの被写体アクション、1つのライティングレシピです。
短いプロンプト vs 詳細なプロンプト
短いプロンプトはモデルに創造的な自由度を与えます。予想外の結果が得られることもありますが、期待と異なる結果になることもあります。
長く、より詳細なプロンプトはモデルの創造性を制限しますが、より制御しやすくなります。モデルはあなたのガイダンスに従おうとしますが、常に確実に従うとは限りません。
#### 短いプロンプトの例
90年代のドキュメンタリースタイルのインタビューで、古い書斎に座るスウェーデンの老人が「若い頃のことを今でも覚えている」と言う。このプロンプトがうまく機能する理由:
- `90年代のドキュメンタリー` が動画のスタイルを設定。モデルはカメラレンズ、ライティング、カラーグレードなどの変数をそれに応じて選択します。
- `古い書斎に座るスウェーデンの老人` は被写体と設定を簡潔に記述し、モデルに人物と設定の外観について創造的な自由を与えます。
- `「若い頃のことを今でも覚えている」と言う` は対話を記述。Soraはこれを正確に従う可能性が高いです。
このプロンプトはこれらの要件に一致する動画を生成しますが、多くの詳細が開かれています。例えば、時間帯、天気、服装、トーン、キャラクターの外観や年齢、カメラアングル、カット、セットデザインなどです。
これらの詳細を記述しない限り、Soraがそれらを作り上げます。もし明確なアイデアがあるなら、これらの詳細も書いておく方が良いでしょう。
超詳細なプロンプト:映画的なショットのための構造
複雑で映画的なショットの場合、標準的なプロンプト構造を超えて、外観、カメラセットアップ、グレーディング、サウンドスケープ、さらにはショットの根拠を専門的な制作用語で指定できます。これは監督がカメラクルーやVFXチームにブリーフィングする方法に似ています。
レンズ、フィルタリング、ライティング、グレーディング、動きの詳細なキューは、モデルが非常に特定の美学にロックオンするのに役立ちます。
詳細プロンプトの例
フォーマットと外観
Duration 4s; 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.レンズとフィルタリング
32 mm / 50 mm spherical primes; Black Pro-Mist 1/4; slight CPL rotation to manage glass reflections on train windows.グレード/パレット
Highlights: clean morning sunlight with amber lift.
Mids: balanced neutrals with slight teal cast in shadows.
Blacks: soft, neutral with mild lift for haze retention.ライティングと雰囲気
Natural sunlight from camera left, low angle (07:30 AM).
Bounce: 4×4 ultrabounce silver from trackside.
Negative fill from opposite wall.
Practical: sodium platform lights on dim fade.
Atmos: gentle mist; train exhaust drift through light beam.場所とフレーミング
Urban commuter platform, dawn.
Foreground: yellow safety line, coffee cup on bench.
Midground: waiting passengers silhouetted in haze.
Background: arriving train braking to a stop.
Avoid signage or corporate branding.衣装/小道具/エキストラ
Main subject: mid-30s traveler, navy coat, backpack slung on one shoulder, holding phone loosely at side.
Extras: commuters in muted tones; one cyclist pushing bike.
Props: paper coffee cup, rolling luggage, LED departure board (generic destinations).サウンド
Diegetic only: faint rail screech, train brakes hiss, distant announcement muffled (-20 LUFS), low ambient hum.
Footsteps and paper rustle; no score or added foley.最適化されたショットリスト(2ショット/合計4秒)
0.00–2.40 — "Arrival Drift" (32 mm, shoulder-mounted slow dolly left)
Camera slides past platform signage edge; shallow focus reveals traveler mid-frame looking down tracks. Morning light blooms across lens; train headlights flare softly through mist. Purpose: establish setting and tone, hint anticipation.
2.40–4.00 — "Turn and Pause" (50 mm, slow arc in)
Cut to tighter over-shoulder arc as train halts; traveler turns slightly toward camera, catching sunlight rim across cheek and phone screen reflection. Eyes flick up toward something unseen. Purpose: create human focal moment with minimal motion.視覚的なキュー:スタイルを導く
プロンプトを書く際、スタイルはモデルを望む結果に導く最も強力なレバーの1つです。全体的な美学を記述することで(例えば、「1970年代の映画」、「壮大なIMAX規模のシーン」、「16mm白黒フィルム」)、すべての他の選択をフレームする視覚的なトーンを設定します。モデルが一貫してそれを維持できるように、このスタイルを早期に確立してください。
同じ詳細でも、磨かれたハリウッドドラマ、手持ちのスマートフォンクリップ、または粒状のヴィンテージコマーシャルを要求するかによって、非常に異なって読み取られます。トーンが設定されたら、ショット、アクション、光で具体的な詳細を重ねます。
具体的に書くほど、結果は制御しやすくなります。「美しい通り」のような曖昧なキューではなく、「濡れたアスファルト、横断歩道、ネオンサインの反射」と書いてください。「素早く動く」ではなく、「3歩ジョギングして、縁石で止まる」と指定してください。
目に見える結果を指す動詞と名詞を使うと、より明確で一貫した出力が得られます。
弱いプロンプト vs 強いプロンプト
| 弱いプロンプト | 強いプロンプト |
|--------------|--------------|
| "夜の美しい通り" | "濡れたアスファルト、横断歩道、水たまりに反射するネオンサイン" |
| "人が素早く動く" | "自転車が3回ペダルをこぎ、ブレーキをかけて横断歩道で止まる" |
| "映画的な外観" | "アナモルフィック2.0xレンズ、浅い被写界深度、体積光" |
カメラ方向とフレーミング
カメラの方向とフレーミングは、ショットの感じ方を形作ります。上からのワイドショットは空間と文脈を強調し、目の高さのクローズアップは感情に注意を集中させます。被写界深度は別の層を追加します:浅いフォーカスは被写体をぼかした背景に対して際立たせ、深いフォーカスは前景と背景の両方を鮮明に保ちます。
ライティングはアクションや設定と同じくらいトーンを設定します。柔らかく暖かいキーライトは親しみやすいものを作り、冷たいエッジを持つ単一のハードライトはドラマに向かって押し出します。
良いフレーミング指示の例:
- `wide establishing shot, eye level`(ワイド確立ショット、目の高さ)
- `wide shot, tracking left to right with the charge`(ワイドショット、チャージに合わせて左から右へトラッキング)
- `aerial wide shot, slight downward angle`(航空ワイドショット、わずかな下向き角度)
- `medium close-up shot, slight angle from behind`(ミディアムクローズアップショット、後ろからのわずかな角度)
良いカメラモーション指示の例:
- `slowly tilting camera`(カメラをゆっくりティルト)
- `handheld eng camera`(手持ちENGカメラ)
動きとタイミングの制御
動きはしばしば正しくするのが最も難しい部分なので、シンプルに保ちましょう。各ショットには1つの明確なカメラの動きと1つの明確な被写体のアクションが必要です。アクションは、ビートやカウントで記述すると最も効果的です。小さなステップ、ジェスチャー、またはポーズで、時間に根ざした感じになります。
「俳優が部屋を横切って歩く」では、あまり作業材料がありません。「俳優が窓まで4歩歩き、ポーズし、最後の1秒でカーテンを引く」という行は、タイミングを正確で達成可能にします。
弱い vs 強いアクション記述
弱い:
俳優が部屋を横切って歩く。強い:
俳優が窓まで4歩歩き、ポーズし、最後の1秒でカーテンを引く。ライティングと色の一貫性
光はアクションや設定と同じくらいムードを決定します。フレーム全体に拡散する光は穏やかで中立的に感じられ、単一の強い光源は鋭いコントラストと緊張を作り出します。複数のクリップを一緒にカットする場合、ライティングロジックを一貫して保つことが、編集をシームレスにするものです。
光の品質とそれを強化する色のアンカーを記述してください。「明るく照らされた部屋」のような広範なメモではなく、光源とトーンの組み合わせを指定してください:「暖かいランプフィルを持つ柔らかい窓の光と、廊下からの冷たいエッジ」。3〜5色に名前を付けることで、ショット間でパレットを安定させることができます。
弱い vs 強いライティング記述
弱い:
ライティング + パレット:明るく照らされた部屋強い:
ライティング + パレット:暖かいランプフィルを持つ柔らかい窓の光、廊下からの冷たいリム
パレットアンカー:アンバー、クリーム、ウォルナットブラウン画像入力によるより細かい制御
ショットの構図とスタイルをより細かく制御するために、画像入力を視覚的な参照として使用できます。写真、デジタルアート、またはAI生成の視覚を使用できます。これにより、キャラクターデザイン、衣装、セットドレッシング、または全体的な美学などの要素が固定されます。モデルは画像を最初のフレームのアンカーとして使用し、テキストプロンプトが次に何が起こるかを定義します。
使用方法
1. POST /videosリクエストの`input_reference`パラメータに画像ファイルを含めます
2. 画像はターゲット動画の解像度(size)と一致する必要があります
3. サポートされるファイル形式:`image/jpeg`, `image/png`, `image/webp`
視覚的な参照がない場合、OpenAIの画像生成モデルはそれらを作成する強力な方法です。環境やシーンデザインを迅速に生成し、それらをSoraへの参照として渡すことができます。これは美学をテストし、動画の美しい開始点を生成する優れた方法です。
対話とオーディオ
対話はプロンプトに直接記述する必要があります。散文の記述の下にブロックとして配置し、モデルが視覚的な記述と話された行を明確に区別できるようにします。行を簡潔で自然に保ち、タイミングがクリップの長さに一致するように、交換を数文に制限してください。複数キャラクターのシーンの場合、話者を一貫してラベル付けし、交互のターンを使用します。これにより、モデルが各行を正しいキャラクターのジェスチャーや表情に関連付けることができます。
リズムとタイミングについても考える必要があります:4秒のショットは通常1〜2つの短い交換を収容し、8秒のクリップはさらにいくつかをサポートできます。長く複雑なスピーチは同期がうまくいかない可能性があり、ペーシングを壊す可能性があります。
ショットが無音の場合でも、「遠くの交通のヒス」や「パリッとしたスナップ」などの小さな音でペーシングを提案できます。完全なサウンドトラックではなく、リズムキューとして考えてください。
対話付きプロンプトの例
古い灰の色の壁を持つ、窓のない狭い部屋。天井からぶら下がる単一の裸電球が、中央の傷ついた金属テーブルに光を集めています。2つの椅子が向かい合って座っています。一方には、トレンチコートを椅子の背もたれにかけた探偵が座り、鋭く瞬きもしない目をしています。向かいには、容疑者がだらりと座り、タバコの煙が天井に向かってゆっくりと渦巻いています。沈黙が押し寄せ、頭上ライトの微かなハム音だけがそれを破ります。
対話:
- 探偵:「あなたは嘘をついている。その沈黙から聞こえる。」
- 容疑者:「それとも、話すのに疲れただけかもしれない。」
- 探偵:「どちらにしても、夜が明ける前に話すことになる。」背景音の記述例
エスプレッソマシンのハム音と声のざわめきが背景を形成します。Remix機能で反復改善
Remixは微調整のためのものであり、ギャンブルではありません。制御された変更を1つずつ行い、何を変更しているかを言ってください:「同じショット、85mmに切り替え」、または「同じライティング、新しいパレット:ティール、サンド、ラスト」。結果が近い場合、参照として固定し、調整のみを記述してください。そうすれば、すでに機能しているすべてがロックされたままです。
ショットがうまくいかない場合は、それを剥がしてください:カメラを固定し、アクションを簡素化し、背景をクリアします。機能したら、追加の複雑さを段階的に重ねます。
プロンプトテンプレートと例
プロンプト構造
プロンプトを書く効果的な方法の1つは、モデルに使用してほしい異なる種類の情報を分離することです。これは万能の成功レシピではありませんが、明確なフレームワークを提供し、一貫性を保ちやすくします。すべての詳細を含める必要はありません。ショットにとって重要でない場合は、省略できます。
実際、特定の要素を開いたままにすることで、モデルがより創造的になることがあります。すべての視覚的な選択を厳密に指定するほど、モデルが解釈し、予想外だがしばしば美しいバリエーションで驚かせる余地が少なくなります。記述的なプロンプトはより一貫した制御された結果を生み出し、軽いプロンプトは新鮮で想像力豊かな多様な結果を解き放つことができます。
記述的プロンプトテンプレート:
[平易な言葉での散文のシーン記述。キャラクター、衣装、風景、天気、その他の詳細を記述します。ビジョンに一致する動画を生成するために、できるだけ記述的に。]
撮影:
カメラショット:[フレーミングと角度、例:ワイド確立ショット、目の高さ]
ムード:[全体的なトーン、例:映画的で緊張感のある、遊び心がありサスペンスフル、豪華な期待感]
アクション:
- [アクション1:明確で具体的なビートまたはジェスチャー]
- [アクション2:クリップ内の別の明確なビート]
- [アクション3:別のアクションまたは対話行]
対話:
[ショットに対話がある場合、ここに短い自然な行を追加するか、アクションリストの一部として追加します。クリップの長さに一致するように簡潔に保ちます。]プロンプト例
#### 例1:手描き2D/3Dハイブリッドアニメーション
スタイル:柔らかいブラシテクスチャ、暖かいタングステンライティング、触覚的なストップモーション感覚を持つ手描き2D/3Dハイブリッドアニメーション。美学は2000年代半ばの絵本アニメーションを呼び起こします—居心地が良く、不完全で、機械的な魅力に満ちています。微妙な水彩の洗いと絵画的なテクスチャ;グレードの暖冷バランス;アニメーションのリアリズムのための映画的モーションブラー。
雑然としたワークショップの中、棚には歯車、ボルト、黄色がかった青写真があふれています。中央で、小さな丸いロボットが木製のベンチに座り、へこんだボディは不一致なプレートと古いペンキの層でパッチされています。大きな光る目が淡い青でちらつき、ハミングする電球を神経質にいじっています。空気は静かな機械的な唸りで満たされ、雨が窓を叩き、時計が背景で着実にチック音を立てます。
撮影:
カメラ:ミディアムクローズアップ、ぶら下がったツールからの優しいパララックスでゆっくりプッシュイン
レンズ:35mm仮想レンズ;背景の雑然としたものを柔らかくするための浅い被写界深度
ライティング:頭上実用的なものからの暖かいキー;コントラストのための窓からの冷たいスピル
ムード:優しく、気まぐれで、少しサスペンス
アクション:
- ロボットが電球をタップ;火花がパチパチ。
- ロボットがひるみ、電球を落とし、目を大きく見開く。
- 電球がスローモーションで転がる;ロボットがぎりぎりでキャッチする。
- ロボットの胸から蒸気のプッフが逃げる—安堵と誇り。
- ロボットが静かに言う:「もう少しで失うところだった…でも捕まえた!」
背景音:
雨、時計のチック音、柔らかい機械的なハム、微かな電球のシズル音。#### 例2:1970年代のロマンチックドラマ
スタイル:1970年代のロマンチックドラマ、自然なフレア、ソフトフォーカス、暖かいハレーションを持つ35mmフィルムで撮影。わずかなゲートウィーブと手持ちのマイクロシェイクがヴィンテージの親密感を呼び起こします。暖かいコダック風のグレード;電球の軽いハレーション;時代の真正性のためのフィルムグレインとソフトビネット。
ゴールデンアワーに、レンガの共同住宅の屋上は小さなステージに変わります。白いシーツで結ばれた洗濯ロープが風に揺れ、最後の太陽光線を捕らえます。一致しないフェアリーブルブが頭上で微かにハム音を立てています。流れるような赤いシルクのドレスを着た若い女性が裸足で踊り、カールが消えゆく光の中で輝いています。パートナー—袖をまくり、サスペンダーが緩い—は拍手し、笑顔は広く無防備です。下では、街が車のホーン、地下鉄の震え、遠くの笑い声で満たされています。
撮影:
カメラ:ミディアムワイドショット、目の高さからゆっくりドリーイン
レンズ:40mm球面;カップルをスカイラインから分離するための浅いフォーカス
ライティング:タングステンバウンスを持つゴールデン自然キー;フェアリーブルブからのエッジ
ムード:ノスタルジック、優しい、映画的
アクション:
- 彼女が回転;ドレスがフレアし、太陽光を捕らえる。
- 女性(笑いながら):「見て?今夜は街も私たちと一緒に踊っている。」
- 彼がステップインし、彼女の手をキャッチし、影にディップする。
- 男性(微笑みながら):「あなたがリードするからだよ。」
- シーツがフレームを横切り、スカイラインを一時的に覆い、再び分かれる。
背景音:
自然な環境音のみ:微かな風、布のフラッター、街の騒音、くぐもった音楽。追加のスコアなし。まとめ
Sora2で高品質な動画を生成するには、プロンプトの書き方が重要です。短いプロンプトで創造的な自由度を与えることも、詳細なプロンプトで特定の美学を追求することも、どちらも有効なアプローチです。何度か試してみて、モデルと協力して最良の結果を見つけましょう。
プロンプトを書く際は、以下のポイントを意識してください:
- 具体的に書く:曖昧な記述ではなく、具体的な視覚的な言語を使う
- カメラとライティングを明確に:フレーミング、角度、被写界深度、ライティングの品質と色を指定
- アクションをビートで記述:タイミングを明確にし、達成可能なアクションを記述
- 先にスタイルを決める:全体的な美学を最初に設定し、モデルが一貫して維持できるように
- 何度か試す:Remix機能を使って、小さな変更を1つずつ行い、最良の結果を見つける
これらの方法を試してみれば、Sora2でより効果的な動画生成プロンプトを書けるようになるはずです。
---
プロンプトを書くのが難しい?
ここまで、Sora2での動画生成プロンプトの書き方について見てきました。でも実際に書いてみると、いくつか問題に直面することがあります。
プロンプトが曖昧で、期待した結果が得られない。プロンプトの構造が適切でなく、モデルが意図を理解しにくい。特に動画生成のような専門的なタスクでは、どうやってプロンプト構造を組めばいいかわからない。何度も試行錯誤しても、なかなか理想的なプロンプトにたどり着けない。
もしプロンプトを書くのが難しいと感じたら、私たちが作った無料ツール「Dativus」を試してみてください。Dativusは:
- ⚡ プロンプトの最適化:曖昧な指示を構造化されたプロンプトテンプレートに変換
- 🎨 専門タスク対応:動画生成や画像生成タスクに特化したプロンプト最適化をサポート
- 🔒 プライバシー優先:BYOK(Bring Your Own Key)モードで、すべてのデータはブラウザでローカル処理され、サーバーに送信されません
- 🌍 多言語対応:英語、日本語、中国語など、複数の言語のインターフェースと出力をサポート
Dativusは非常に軽量で、完全無料、すべてのデータはローカルに保存され、登録不要です。カスタムプロンプトテンプレートもサポートしており、さまざまな使用シーンに対応できます。ぜひお試しください:Dativus ウェブサイト