AI Tools

用 Sora 不开机、不进棚,做完一支产品演示视频广告

2025年8月25日

周四晚上一个 SaaS 创始人发消息过来:周二要在 Meta 跑 3 条 :12 秒的产品广告,中漏斗位置,预算紧。产品是一个日历 app,没找代理、来不及组摄制组,找动画外包又会把整条时间线吃掉。只剩两个工作日。

到周日下午,3 条广告都做完进了投放队列。没碰任何一台摄像机。Sora 出动态画面,ElevenLabs 出配音,CapCut 拼接。计费工时一共大约 5 小时。

这个结果不是魔法——这是工作流。Sora 对某些镜头非常擅长,对另一些则一塌糊涂。如果你在动手前就知道哪些是哪些,一个人就能把过去需要一整天拍摄的付费投放 creative 测试给跑起来。下面这套是我真在用的 playbook。

Sora 哪些镜头能出活,哪些会浪费你的周末

写第一行 prompt 之前,先校准工具能力。截至 2025 年 8 月,Sora 独立产品(sora.com)对 Plus 用户给 720p、5 秒;对 Pro 用户给 1080p、20 秒,带 image-to-video(图生视频)和 storyboard(故事板)工具。Pro 是 $200/月,Plus 还是你已经有的那个 $20/月。

在我的使用里,Sora 能稳定打出来的:

生活场景 / 环境镜头(B-roll)。 阳光下厨房台面上的笔记本电脑;跑步机扶手上的手机;笔记本旁边的咖啡杯。这就是付费社媒广告需要的 B-roll 插入镜头。
抽象的产品感。 "脆、快、轻"这种情绪;运动中的液体(水可以,带品牌的饮料不行);粒子、镜头光晕、雾气。
环境里的软件 UI。 屏幕上模糊的 app 界面——只是让观众"感受到",而不是去读它。
人的反应和肢体动作。 一次释然的呼气、合上笔记本的手、点头、对着手机微笑。

哪些它还做不好,我用真金白银烧出来的教训:

你的具体产品,带可读的品牌名和 logo。 Sora 对小字渲染不稳定,包装上的品牌名出来就是抖动的乱码。永远在后期叠真实的产品渲染图。
数数。 让它出 5 个瓶子,出 4 个或 7 个。让它出有 5 根手指的手,祈祷吧。
品牌精准色。 "雾感蓝绿色"它能做八九不离十,精确到你的 hex 色号别想。
手部精细操作。 看手指。刀切番茄、拆箱、按按钮——手指依然会穿过物体。
读屏幕。 任何要让用户"读 dashboard"的镜头都是陷阱,出来的像素会撒谎。

这个清单本身就是关键的决策门槛。如果你这条广告的 hero 镜头是手指按真实包装上的真实按钮——别用 Sora,该订摄制组就订。如果你这条广告的 hero 镜头是使用产品的那种感觉——Sora 这周帮你赢。

Step 1 — 在打开 Sora 之前,先写 6 行产品卡

Sora 广告做出来生硬,最大的原因是人在没想清楚"这条广告到底是什么"之前就开始 prompt 了。我强制自己先在纸上或者 Notion 里写完这 6 行,不写完不打开工具:

产品(Product) — 一句话,它实际做什么,不要"赋能"。
视觉识别(Visual identity) — 3 个形容词 + 2 个现实品牌参考("Notion 的干净 + Patagonia 的户外感")。
承诺(Promise) — 观众看完应该记住的那一个结果。
格式(Format) — Reels/TikTok 用 9:16 竖屏,Meta feed 用 1:1 方屏,YouTube pre-roll 用 16:9。选一个。Sora 啥比例都能渲,但构图完全不一样。
时长(Length) — :06、:12 还是 :15。现在就定,因为这决定了你需要几个镜头。
必须拿下的镜头(The shot you must land) — 那一帧,如果没拿到,这条广告就不发。

最后一行是替我省下最多周末的那一行。如果你能说清"必须拿下"的镜头是什么,你 30 秒内就能判断 Sora 能不能给你。

Step 2 — 分 3 个镜头,不要一镜到底

常见错误是让 Sora 一次出完整支 12 秒广告。别这样。Sora 的时间一致性在 8 秒之后就开始崩——厨房会变成稍微不一样的厨房,模特的衬衫会变,光线会偏移。把广告切成镜头,各自生成,然后拼接。

:12 的产品演示广告,我几乎每次都用 3 镜头结构:

Setup(铺垫,2–3 秒) — 观众认得的世界。痛点或时刻。
Reveal(揭示,5–7 秒) — 产品出现 / 功能落地。这是 hero 镜头。
Pay-off(收尾,2–3 秒) — 人物使用之后。一个点头、一次呼气、合上的笔记本、一个微笑。

每个镜头单独写 prompt,各自跑 5–10 次直到出一个能用的。是的,10 次。Sora 第一批生成里能精准对上你脑子里那一帧的命中率,大概 1/6。Pro 给的更高生成额度,就是让你不停翻牌用的。

Step 3 — Prompt 骨架

我写每一个 Sora 镜头 prompt 都用同样的 4 块结构,按这个顺序。不是什么魔法公式,但它强制把模型最常漏掉的信息补齐:

主体 + 场景(Subject + scene) — 先放具体名词。"30 多岁的女性,羊毛开衫,在厨房中岛打开一台笔记本。上午晚些时候的阳光。"
镜头(Camera) — 焦段、角度、运动。"85mm 人像镜头,慢推,平视,浅景深。"
打光(Lighting) — 用有名字的风格。"窗户进来的 golden hour(黄金时段)光,柔和的暖色 rim light(轮廓光),没有硬阴影。"
动作动词(Motion verb) — 一个。"她呼了口气,微微笑了一下。"不是"她呼气、微笑、端起杯子、看向窗外"。Sora 能把一个动作做好,三个动作就崩成糊。

下面是我为日历 app 的 Reveal 镜头实际用过的 prompt,清理了一下:

Close-up of a smartphone screen face-up on a wooden desk. The screen shows a soft, blurred calendar interface with pastel event blocks (no readable text). 35mm lens, top-down angle, very shallow depth of field. Warm morning light, soft window highlights. A hand enters from the right and gently taps the screen once. Cinematic, calm, hopeful.

"no readable text(没有可读文字)"是故意写的——就是告诉模型别再去渲染那些它反正会渲糊的字。真实的 UI 后期在 CapCut 里用真实屏幕录制叠上去,文字才是对的。

同一个镜头会失败的 prompt:

A hand taps a phone showing the SwiftCal app dashboard and a notification pops up saying "You have 3 meetings today" and the user smiles.

这条要求:品牌名、具体 UI 字符串、带文字的 notification、情绪反应。Sora 会给你 4 样各对 40% 的东西,整个镜头不能用。

Step 4 — 不能违反的物理规则

烧掉的渲染时长多得我不想算之后,每条 prompt 我都会过一遍这个 checklist。任何一条命中就回去改,再生成:

需要模型渲染观众会去读的具体文字吗?删掉。后期叠。
需要数 2 个以上的任何东西吗?改成 1 个。
需要一只手精确操作小物件(拧瓶盖、点笔、打结)吗?删掉。用 stock 素材,或者换成"动作隐含、不直接看到"的更宽景。
需要两个同时发生的动作吗?选一个。
需要镜头做两种运动(推同时摇)吗?选一个。

每条规则都是一道疤。系鞋带那个镜头我试了 11 次才放弃,换成"系鞋带、画外、对焦在跑者的脸"的更宽景。这条第 2 次就出来了。

Step 5 — Hero 镜头用 Storyboard 工具

Sora 的 Storyboard(故事板)视图——sora.com 上的时间线编辑器——用的人不多。必须拿下的那个镜头,用 storyboard 设 2-3 个关键帧描述起、中、终状态。模型在帧之间插值出运动的可控性,比纯文字 prompt 高得多。

日历 app 的 Pay-off 镜头,我的 storyboard 是:

关键帧 1(0s): "Woman looking down at her phone, slight smile starting."
关键帧 2(2s): "Woman looking up out the window, full warm smile, phone lowered in lap."

2 个关键帧、一条动作弧线,命中率比同样一条单纯文字 prompt 高很多。这是 Sora 目前最接近"导演执导"的东西。

Step 6 — Sora 之后的 30 分钟

3 个素材片段不等于一条广告。从原始生成到能投放的成片,Sora 之后这几步短但不能省:

按节奏剪。 把 3 个镜头丢进 CapCut 或 Descript,剪到目标时长。Sora 头尾各 0.5 秒经常有抖动——剪掉。
合成真实的产品 UI。 拿真实屏幕录制或产品渲染图,在 Reveal 镜头里盖在 Sora 渲染的"假 UI"那一帧上。这是广告看起来假和看起来真的分水岭。
配音(Voiceover)。 每个镜头最多一句。在 ElevenLabs 里生成("Sarah"或"Dorothy"声线偏暖,"Adam"偏自信),或者手机录一遍。烂配音能瞬间毁掉一个好画面。
字幕(Captions)。 给 85% 在静音状态下刷的观众烧字幕。用真的字幕轨,不要让 Sora 渲文字。
配乐。 Epidemic Sound 或 Artlist 选一段 5 秒铺底,VO 下面压低 6dB。
导出。 1080p、MP4、H.264,平台对应比例。别把 4K 母版丢到 Meta,平台二次压缩会把它涂花。

3 个 Sora 片段就位之后,这一道大约 30 分钟。同一天的第二条广告会更快,因为音乐和 VO 风格直接复用。

什么时候还是该订真实摄制

Sora 不会杀死制作日,它杀死的是没必要的制作日。在我的预算逻辑里,这些拍摄依然该订:

旗舰发布 creative——品牌要观众看到的是真实的产品、真实的包装、真实的开箱体验。一款核心产品消费者看到的第一条广告,应该是真的。
UGC 风格的真人证言广告——"真实感"就是整条广告的转化驱动力。Sora 生成的"真实用户"在任何看过 10 条 Sora 广告的人眼里都是假的(这一天来得很快)。
强监管行业——保健品、金融产品,任何监管可能会问"画面描述是否属实"的领域。AI 素材引入的风险不值。
半年要剪出 30 条衍生素材的母版。按"每条素材"算,实拍如果能复用这么多次,反而便宜。

中间这一大片——Meta、TikTok、YouTube Shorts 上不停测试 creative 角度——Sora 现在就是正确的起点。每条片子的成本是你的订阅费,不是 day rate(天费)。

真正在变的不是"AI 替代了视频制作"。真正在变的是前期会议塌掉了。下午从前开始的样子是:一个导演、一个 creative lead、一个 producer,加一份 deck 论证我们为什么需要同一个 hero 镜头的 3 个角度。现在下午开始的样子是:一个人、一个写了 6 行 brief 的笔记本、后台跑着一个 render queue。Sora 让"开机日"过时的不是开机日本身——是开机日前面那个瓶颈过时了。这才是真正在动的那条预算项。

Twitter LinkedIn Facebook Reddit Email

Runway Gen-3 限时视频广告创意实战:哪些能用、哪些会翻车用 HeyGen AI 代言人做 UGC 广告:一套真能跑出量的倍增打法 9 天测 200 条广告创意:我的「生产 + 排序」全流程 ElevenLabs 多语种配音规模化实战：把视频广告一次性配音到 29 种语言