[Guide] Sora2 提示词示例：高效视频生成提示词写作指南

写提示词是 Sora2 生成好视频的关键。下面是一些实用的提示词示例和写作技巧，帮你写出更有效的提示词。

写作前的基本原则

视频生成的提示词，就像给从未看过故事板的摄影师下达指令。如果遗漏细节，模型会即兴发挥，可能无法得到你期望的结果。另一方面，适当留白也能给模型更多创作自由度，产生意想不到的精彩效果。

多试几次，小调整也能带来大变化。相机、灯光、动作的微小调整，都可能显著改变结果。和模型协作，你提供方向，模型提供创意变化。

提示词无法控制的部分

提示词控制视频内容，但有些东西必须在 API 调用时设置，不能在提示词里要求。比如视频长度、分辨率、模型版本这些。

视频长度有 4 秒、8 秒、12 秒可选。我在实际使用中发现，4 秒片段通常效果最稳定，模型更容易准确理解你的意图。如果项目允许，两个 4 秒片段在编辑中拼接，可能比单个 8 秒片段效果更好。

分辨率方面，高分辨率能生成更多细节和更准确的光线过渡，但低分辨率可能会产生一些柔和感或伪影。根据你的需求选择合适的分辨率就行。

有效的提示词结构

清晰的提示词就像在故事板上绘制镜头。说明相机构图，注意景深，用节拍描述动作，设定灯光和色调。用几个特征性细节锚定主体，使其可识别，单一合理的动作使镜头更易理解。

如果需要覆盖一个序列，在单个提示词中描述多个镜头也有效。这样做时，保持每个镜头块清晰：一次一个相机设置、一个主体动作、一个灯光方案。

简短提示词 vs 详细提示词

简短提示词给模型更多创作自由度，可能会给你惊喜，但也可能偏离你的预期。

更详细的提示词会限制模型的创造力，但能让你更可控。模型会尽量遵循你的指导，但不一定总是完全做到。

#### 简短提示词示例

90 年代纪录片风格的采访，一位瑞典老人坐在书房里说："我还记得年轻的时候。"

这个提示词效果好的原因：

`90 年代纪录片` 设定了视频风格。模型会相应选择相机镜头、灯光、调色等变量。
`坐在书房里的瑞典老人` 简要描述了主体和场景，让模型在人物和场景外观上有创作自由。
`说"我还记得年轻的时候"` 描述了对话。Sora 很可能准确遵循这一点。

这个提示词能生成符合这些要求的视频，但很多细节留空了。比如时间、天气、服装、色调、角色的外观和年龄、相机角度、剪辑、场景设计等等。

如果你不描述这些细节，Sora 会自己填补。所以如果你有明确的想法，最好把这些细节也写进去。

超详细提示词：电影级镜头的结构

对于复杂、电影级的镜头，可以超越标准提示词结构，用专业制作术语指定外观、相机设置、调色、音景，甚至镜头理由。这类似于导演向摄制组或 VFX 团队做简报。

镜头、滤镜、灯光、调色、动作的详细提示，有助于模型锁定非常特定的美学风格。

详细提示词示例

格式与外观

时长 4 秒；180° 快门；模拟 65mm 光化学对比度的数字捕捉；细颗粒；高光处微妙光晕；无片门抖动。

镜头与滤镜

32mm / 50mm 球面定焦；Black Pro-Mist 1/4；轻微 CPL 旋转以管理火车窗户上的玻璃反射。

调色/色调

高光：干净的晨光，琥珀色提升。
中调：平衡的中性色，阴影中略带青绿色调。
暗部：柔和、中性，轻微提升以保留雾气。

灯光与氛围

自然阳光从相机左侧，低角度（早上 7:30）。
反光：轨道旁 4×4 银色超反光板。
负补光来自对面墙壁。
实用光源：站台钠灯，渐暗。
氛围：轻柔雾气；火车废气在光束中飘散。

地点与构图

城市通勤站台，黎明。
前景：黄色安全线，长椅上的咖啡杯。
中景：在雾气中剪影的候车乘客。
背景：到达的火车刹车停下。
避免标志或企业品牌。

服装/道具/群众演员

主要主体：30 多岁旅行者，海军蓝外套，单肩背包，手拿手机随意放在身侧。
群众演员：柔和色调的通勤者；一人推自行车。
道具：纸咖啡杯、滚动行李箱、LED 出发牌（通用目的地）。

声音

仅环境音：微弱的轨道摩擦声、火车刹车嘶嘶声、远处广播模糊（-20 LUFS）、低环境嗡嗡声。
脚步声和纸张沙沙声；无配乐或添加音效。

优化的镜头列表（2 个镜头/总计 4 秒）

0.00–2.40 — "到达漂移"（32mm，肩扛慢速左移）
相机滑过站台标志边缘；浅景深显示中景中看向轨道的旅行者。晨光在镜头上绽放；火车前灯在雾气中柔和地闪烁。目的：建立场景和基调，暗示期待。

2.40–4.00 — "转身与停顿"（50mm，慢速弧线推进）
切换到更紧的过肩弧线，火车停下；旅行者轻微转向相机，脸颊和手机屏幕反射捕捉到阳光边缘。眼睛向上看向看不见的东西。目的：以最小动作创造人物焦点时刻。

视觉提示：引导风格

写作提示词时，风格是引导模型达到期望结果的最有力杠杆之一。描述整体美学（例如，"1970 年代电影"、"史诗级 IMAX 规模场景"或"16mm 黑白胶片"），设定一个为所有其他选择提供框架的视觉基调。尽早建立这种风格，让模型能够一致地保持它。

相同的细节，根据你要求的是打磨的好莱坞剧情片、手持智能手机片段，还是颗粒感的复古广告，会呈现非常不同的效果。基调设定后，用镜头、动作和光线叠加具体细节。

写得越具体，结果越可控。不要用"美丽的街道"这样的模糊提示，写"湿沥青、斑马线、霓虹灯在水坑中的反射"更好。不要写"快速移动"，具体说明"骑行者蹬三下，刹车，停在人行横道前"。

用指向可见结果的动词和名词，能给你更清晰、更一致的输出。

弱提示词 vs 强提示词

| 弱提示词 | 强提示词 |

|---------|---------|

| "夜晚美丽的街道" | "湿沥青、斑马线、水坑中反射的霓虹灯" |

| "人快速移动" | "骑行者蹬三下，刹车，停在人行横道前" |

| "电影感外观" | "变形 2.0x 镜头，浅景深，体积光" |

相机方向与构图

相机方向和构图塑造镜头的感受。从上方拍摄的广角镜头强调空间和背景，而眼平线的特写则聚焦于情感。景深增加另一层：浅景深使主体在模糊背景中突出，而深景深保持前景和背景都清晰。

灯光与动作或场景一样强烈地设定基调。柔和、温暖的主光创造亲切感，而带有冷边缘的单一硬光则推向戏剧性。

好的构图指示示例：

`广角建立镜头，眼平线`（wide establishing shot, eye level）
`广角镜头，跟随冲锋从左到右跟踪`（wide shot, tracking left to right with the charge）
`航拍广角镜头，轻微向下角度`（aerial wide shot, slight downward angle）
`中近景，从后方轻微角度`（medium close-up shot, slight angle from behind）

好的相机运动指示示例：

`缓慢倾斜相机`（slowly tilting camera）
`手持 ENG 相机`（handheld eng camera）

控制动作与时机

动作往往是最难做对的部分，所以保持简单。每个镜头应该有一个清晰的相机运动和一个清晰的主体动作。动作最好用节拍或计数来描述——小步骤、手势或停顿——这样它们感觉有时间基础。

"演员走过房间"没有提供太多可操作的信息。像"演员向窗户走四步，停顿，在最后一秒拉开窗帘"这样的描述，使时机精确且可实现。

弱 vs 强动作描述

弱：

演员走过房间。

强：

演员向窗户走四步，停顿，在最后一秒拉开窗帘。

灯光与色彩一致性

光线与动作或场景一样决定情绪。整个画面中扩散的光线感觉平静和中立，而单一强光源创造锐利对比和紧张感。当你想要将多个片段剪辑在一起时，保持灯光逻辑一致是使剪辑无缝的关键。

描述光线的质量和强化它的色彩锚点。不要用"明亮照明的房间"这样的宽泛注释，而要指定光源和色调的组合："柔和的窗户光线，温暖的台灯补光，走廊来的冷边缘"。命名三到五种颜色有助于在镜头间保持色调稳定。

弱 vs 强灯光描述

弱：

灯光 + 色调：明亮照明的房间

强：

灯光 + 色调：柔和的窗户光线，温暖的台灯补光，走廊来的冷边缘
色调锚点：琥珀色、奶油色、胡桃木棕色

使用图像输入获得更精细控制

为了对镜头的构图和风格进行更精细的控制，可以使用图像输入作为视觉参考。可以使用照片、数字艺术作品或 AI 生成的视觉效果。这锁定角色设计、服装、场景布置或整体美学等元素。模型使用图像作为第一帧的锚点，而你的文本提示词定义接下来发生什么。

使用方法

1. 在 POST /videos 请求的 `input_reference` 参数中包含图像文件

2. 图像必须匹配目标视频的分辨率（size）

3. 支持的文件格式：`image/jpeg`, `image/png`, `image/webp`

如果你还没有视觉参考，OpenAI 的图像生成模型是创建它们的强大方法。可以快速生成环境和场景设计，然后将它们作为参考传递给 Sora。这是测试美学并为视频生成美丽起点的好方法。

对话与音频

对话必须在提示词中直接描述。将其放在散文描述下方的块中，以便模型清楚区分视觉描述和口语台词。保持台词简洁自然，尽量将对话限制在几句话内，以便时机与片段长度匹配。对于多角色场景，一致地标记说话者并使用交替轮次；这有助于模型将每行与正确角色的手势和表情关联。

你还应该考虑节奏和时机：4 秒的镜头通常容纳一到两次简短对话，而 8 秒的片段可以支持更多。长而复杂的演讲不太可能同步良好，可能会破坏节奏。

如果你的镜头是无声的，仍然可以用一个小声音建议节奏，例如"远处的交通嘶嘶声"或"清脆的咔嚓声"。将其视为节奏提示，而不是完整的配乐。

带对话的提示词示例

墙壁是旧灰烬颜色的无窗狭小房间。一个裸露的灯泡从天花板垂下，光线聚集在中央的伤痕累累的金属桌子上。两把椅子面对面。一边坐着侦探，风衣搭在椅背上，眼睛锐利且不眨眼。对面，嫌疑人懒散地坐着，香烟烟雾懒洋洋地向天花板盘旋。寂静压下来，只有头顶灯光的微弱嗡嗡声打破它。

对话：
- 侦探："你在撒谎。我能从你的沉默中听到。"
- 嫌疑人："或者我只是厌倦了说话。"
- 侦探："无论如何，在夜晚结束前你会说话的。"

背景音描述示例

浓缩咖啡机的嗡嗡声和声音的低语形成背景。

使用 Remix 功能迭代改进

Remix 用于微调，而不是赌博。用它进行受控的更改——一次一个——并说明你在改变什么："相同镜头，切换到 85mm"，或"相同灯光，新色调：青绿色、沙色、锈色"。当结果接近时，将其固定为参考，只描述调整。这样，所有已经有效的部分都保持锁定。

如果镜头一直失败，将其简化：固定相机，简化动作，清除背景。一旦它工作，逐步添加额外的复杂性。

提示词模板与示例

提示词结构

编写提示词的有效方法之一是分离你希望模型使用的不同类型的信息。这不是万能的成功配方，但它提供了一个清晰的框架，使保持一致更容易。不需要包含每个细节——如果某些内容对镜头不重要，可以省略。

实际上，将某些元素保持开放会鼓励模型更具创造性。你越严格地指定每个视觉选择，模型解释和用意外但往往美丽的变体给你惊喜的空间就越少。描述性提示词产生更一致、受控的结果，而轻量提示词可以解锁感觉新鲜和富有想象力的多样化结果。

描述性提示词模板：

[用平实语言描述场景。描述角色、服装、风景、天气和其他细节。尽可能描述性，以生成符合你设想的视频。]

摄影：
相机镜头：[构图和角度，例如：广角建立镜头，眼平线]
情绪：[整体基调，例如：电影感和紧张，俏皮和悬疑，奢华的期待]

动作：
- [动作 1：清晰、具体的节拍或手势]
- [动作 2：片段内的另一个不同节拍]
- [动作 3：另一个动作或对话行]

对话：
[如果镜头有对话，在此处添加简短自然的台词，或作为动作列表的一部分。保持简洁以匹配片段长度。]

提示词示例

#### 示例 1：手绘 2D/3D 混合动画

风格：手绘 2D/3D 混合动画，带有柔和的笔刷纹理、温暖的钨丝灯光和触觉的定格动画感觉。美学唤起 2000 年代中期的故事书动画——舒适、不完美、充满机械魅力。微妙的水彩洗色和绘画纹理；调色中的冷暖平衡；动画真实感的电影运动模糊。

在杂乱的工坊中，架子上堆满了齿轮、螺栓和发黄的蓝图。中央，一个小圆机器人坐在木制长凳上，其凹陷的身体用不匹配的板和旧油漆层修补。它的大发光眼睛闪烁淡蓝色，紧张地摆弄一个嗡嗡作响的灯泡。空气中充满安静的机械嗡嗡声，雨水敲打窗户，时钟在背景中稳定地滴答作响。

摄影：
相机：中近景，缓慢推进，悬挂工具产生轻微视差
镜头：35mm 虚拟镜头；浅景深以柔化背景杂物
灯光：头顶实用光源的温暖主光；窗户来的冷光溢出以形成对比
情绪：温和、异想天开、略带悬疑

动作：
- 机器人轻敲灯泡；火花噼啪作响。
- 它退缩，掉落灯泡，眼睛睁大。
- 灯泡慢动作翻滚；它及时抓住。
- 蒸汽从胸部逸出——解脱和骄傲。
- 机器人轻声说："差点丢了……但我抓住了！"

背景音：
雨声、时钟滴答声、柔和的机械嗡嗡声、微弱的灯泡嘶嘶声。

#### 示例 2：1970 年代浪漫剧情片

风格：1970 年代浪漫剧情片，用 35mm 胶片拍摄，带有自然光晕、柔和焦点和温暖光晕。轻微片门抖动和手持微抖动唤起复古亲密感。温暖的柯达风格调色；灯泡上的轻微光晕；胶片颗粒和柔和晕影以保持时代真实性。

在黄金时刻，砖砌的出租屋屋顶变成了一个小舞台。挂着白床单的晾衣绳在风中摇摆，捕捉最后一道阳光。不匹配的仙女灯串在头顶微弱地嗡嗡作响。一位穿着飘逸红丝裙的年轻女子赤脚跳舞，卷发在消逝的光线中闪闪发光。她的伴侣——袖子卷起，背带松散——拍手，笑容宽大且不设防。下方，城市充满汽车喇叭声、地铁震动和远处的笑声。

摄影：
相机：中广角镜头，从眼平线缓慢推入
镜头：40mm 球面；浅焦点以将情侣与天际线分离
灯光：金色自然主光，钨丝反光；仙女灯来的边缘光
情绪：怀旧、温柔、电影感

动作：
- 她旋转；裙子展开，捕捉阳光。
- 女人（笑着）："看？连城市今晚也和我们一起跳舞。"
- 他走进，抓住她的手，将她浸入阴影中。
- 男人（微笑）："只是因为你领舞。"
- 床单飘过画面，短暂遮蔽天际线，然后再次分开。

背景音：
仅自然环境：微弱的风声、织物飘动、街道噪音、模糊的音乐。无添加配乐。

总结

使用 Sora2 生成高质量视频，写提示词的方法很重要。无论是用简短提示词给模型创作自由度，还是用详细提示词追求特定美学，都是有效的方法。多试几次，和模型协作找到最佳结果。

写提示词时，记住这几点：

写得具体：用具体的视觉语言，别用模糊的描述
明确相机和灯光：指定构图、角度、景深、光线质量和颜色
用节拍描述动作：明确时机，描述可实现的动作
先定风格：先设定整体美学，让模型能一致地保持
多试几次：用 Remix 功能，一次改一点，找到最佳结果

试试这些方法，应该能帮你写出更好的提示词。

---

写提示词还是有点难？

上面这些内容，对于了解 Sora2 的提示词写法应该有帮助。但实际写的时候，你可能会遇到一些问题。

比如提示词写不清楚，模型理解不了你的意图。或者不知道怎么写结构，反复试错也找不到理想的提示词。特别是视频生成这种专业任务，提示词结构怎么组织，可能不太清楚。

如果你觉得写提示词还是有点难，可以试试我们做的免费工具 Dativus。它能帮你：

⚡ 优化提示词：把模糊的指令转换成结构化的提示词模板
🎨 支持专业任务：专门针对视频生成和图像生成优化提示词
🔒 隐私优先：BYOK（自带密钥）模式，所有数据只在浏览器本地处理，不会发送到服务器
🌍 多语言支持：支持英语、中文、日语等多种语言

Dativus 很轻量，完全免费，数据存在本地，不用注册。也支持自定义提示词模板，适应不同场景。试试看：Dativus 官网