Sora Prompt Framework
Sora 的 prompt 不该写成长篇散文,而应该像一张 shot brief。OpenAI 当前帮助中心和 API 文档给出的方向也很一致:要描述 subject / setting / motion / camera / pacing / audio,以及 shot type、action、lighting 这类具体信息。
推荐框架
shot type + scene + subject + action + camera movement + lighting + style + duration + aspect ratio + audio
例如:
A 4-second clip,
evening city street,
a young woman walks past glowing shop windows,
camera tracks from the side,
cinematic and realistic,
warm color palette,
9:16
这个结构的好处是每个变量都能单独调整,方便后续迭代。
尤其是现在 Sora 2 已经把声音和对话也带进来,audio 这部分不能再忽略。
每个字段的作用
Scene
先交代发生在哪里。场景越清楚,模型越容易给出稳定环境。
Subject
主体不要太泛。a person 这种写法的信息量太低,最好补服装、年龄段、角色感或具体物件。
Action
动作决定视频有没有 narrative momentum。只写场景、不写动作,成片常常会显得像动态壁纸。
Camera movement
这部分很关键。至少说明:
- static
- slow push in
- side tracking
- top-down reveal
Audio
如果你需要明确的声音结果,就直接写出来。
OpenAI 帮助中心现在明确提到,如果你不特别写,系统也可能在合适场景下自动生成声音和对白。
Style
用 2 到 3 个词就够了。风格词太多时,模型反而抓不住核心气质。
Duration 和 aspect ratio
短视频 workflow 里,这两项决定构图和节奏,最好一开始就写。
迭代时怎么改更有效
不要一次改 5 个变量。更稳的方式是:
- 先锁 scene 和 subject
- 再调 action
- 再调 camera
- 最后微调 style 和 mood
这样你能看清每次改动到底产生了什么影响。
一条很实用的提醒
OpenAI 帮助中心当前也提醒,Sora 2 在多人同时说话、复杂碰撞和超快镜头上还会出错。
所以 prompt 越复杂,越要明确主次;不然模型很容易顾此失彼。