Paid Media

9 天测 200 条广告创意:我的「生产 + 排序」全流程

2025年3月13日

第 9 天收尾时,我们手上是 200 条在投广告、41 条已 kill、14 条已经扩量新建广告组、3 条赢家在第 6 天就跑到了目标 ROAS（Return On Ad Spend,广告投资回报率）的 4.1 倍。这场 campaign（投放项目）服务的是一个 DTC（Direct-to-Consumer,直接面向消费者）护肤品牌,在 Meta 上每天花 $4,200。等到第 9 天结束,系统已经替我们回答了哪 14 条值得翻倍预算、哪 41 条再也别看。下面是我跑通这条「生产 + 排序」流水线的完整复盘。

这不是一次性炫技。这套 6 阶段流水线,现在是我手上每一个日耗过 $1,500 的账户的标准动作。200 这个数字本身没什么玄学,它是当前预算下,能让 Meta 的 auction（实时竞价系统,负责决定每一次广告曝光花落谁家）真正把信号和噪音分开的最小数字。50 条以下,任何"赢家"基本靠运气;50 条以上信号开始出现,跑到 150–200 条时,头部 10% 的可预测性才真正成立。9 天才是这件事的核心 —— 它是从一张白纸的 brief 走到「有数据撑腰的赢家短名单」所需要的全部日历时间。少于 9 天,你一定是在生产环节偷工,或者在排序环节跳过,两者的代价都比省下来的时间大。

200 这个数字背后的数学

流水线上线之前,先要画好「角度矩阵（angle matrix）」。200 条广告不是 200 个随机点子,而是一组固定变量的笛卡尔积（每种变量互相组合一遍）。这个护肤品牌当时用的矩阵是这样的:

5 个人群分群 —— 25–34 痘肌困扰、35–44 抗老好奇、18–24 护肤习惯建立期、25–44 男性、40–54 复购用户
4 个文案角度 —— 问题感知、方案感知、社会认同、紧迫感
5 个视觉概念 —— 极简临床感、生活化晨间流程、成分特写、before/after、UGC（User Generated Content,真实用户内容）镜面
2 种格式 —— 静态图、6 秒视频

5 × 4 × 5 × 2 = 200。矩阵里的每一个格子,都是一条独立的广告。有些格子一眼看过去就是废的（"40–54 男性 × UGC 镜面 × 抗老"硬伤明显）—— 排序阶段的意义,就是不用花钱就把这种事实挖出来。

矩阵我放在 Google Sheet 里,一行一条广告。A 列是格子编号,B 列是正文初稿,C 列是标题,D 列是视觉 prompt,E 列是素材链接,F 列是预测分,G 列是第 3 天真实 CTR（Click-Through Rate,点击率）,H 列是真实 ROAS,I 列是结论（kill / 保留 / 扩量）。到第 2 周结束,这张表就是这个品牌未来 60 天投放的唯一真相。

阶段 1 —— 第 1 天:锁死 brief 和角度矩阵(3 小时)

一个烂 200 的最大单一预测因子,就是含糊的 brief。在下面 6 件事没白纸黑字写进文档、让客户没法反悔之前,我不会开始生产:

一个产品、一个 offer。 不是"整个 SKU 列表"。就挑一个主推单品。
你真正要打的那一个 persona。 一个,不是五个。矩阵有 5 个人群,但 brief 的口吻只服务主要那个。
这款产品必须兑现的唯一承诺。 一句话。整个 brief 都挂在这句话上。
让这个承诺站得住脚的那一个事实。 一个数字、一项研究、一个名字。
决定赢家/输家的唯一 KPI。 电商品牌看 ROAS,SaaS（Software as a Service,软件服务）看试用注册,线索业务看合格线索数。选一个,然后别再换。
预算地板线。 每个格子能给到多少日预算,才算让 auction 有公平出牌的机会?2025 年的 Meta,粗算是每条广告至少 $20/天。低于这个,学习期（learning phase,系统搞清该把广告展示给谁的过程,通常需要每周每组 ~50 次转化才能干净地退出）根本出不来,数据就是垃圾。

角度矩阵是从 brief 里长出来的,不是反过来。如果 brief 写得实,矩阵一小时就出来。如果你在角度选择上扯皮两天,问题不在矩阵,在 brief。

阶段 2 —— 第 2–4 天:生产冲刺(文案 + 图 + 视频)

三条并行工作流,需要三个人(或者一个人开三个浏览器标签加大量咖啡)。顺序很关键:文案先动,因为图像 prompt 跟着标题走,视频又跟着静态图走。

文案(Anyword + Claude,合计约 6 小时): 我不写 200 套完全不同的文案。我写 4 套——一个角度一套——然后用 Anyword 把每套扩成 25 条带 PPS（Predictive Performance Score,预测表现分）的变体。每个角度取 Top 10(共 40 条),丢进 Claude 做收紧、去重、按 Meta 的 RSA（Responsive Search Ad,动态搜索广告）字段拆成 primary text / headline / description。最终保留的 40 条进表。剩下 60 条果断扔——Anyword 每个角度的 Top 10 几乎永远是最强的那批。

图像(Midjourney + AdCreative.ai,合计约 10 小时): 5 个视觉概念,每个写 4 个 prompt(对应 4 个文案角度),共 20 个 prompt × 2 种格式。Midjourney v6.1 快速模式 30 秒左右出 4 张变体,80 个 prompt × 4 = 320 张,我挑出最好的 100 张。AdCreative.ai 帮我把 100 张候选精修成 100 张 Meta 规格 1080×1080 的成品——它的批量渲染、品牌色锁定、标题叠加模板,一次能省下大约 6 小时的 Photoshop。

视频(Runway Gen-3 + HeyGen,合计约 8 小时): 这是大部分团队崩盘的地方。静态图好做,视频才是生产排期死掉的地方。我不从零做 6 秒视频。做法是拿 Top 20 静态图,丢进 Runway Gen-3 配 5 个词的动作 prompt（"slow zoom, soft light, eye-level"）。20 张图 × 2 种动效 = 40 条视频。UGC（User Generated Content,用户原创内容）格子则用 HeyGen 的虚拟人批量录 5 条口播脚本(9:16 再裁成 1:1),5 套脚本 × 4 个文案角度 = 20 条 UGC。和 Runway 的产出加一起,刚好把矩阵里的 100 个视频格子填满。

第 4 天傍晚: 200 个素材全部进 Google Sheet、文案全部就位、所有格子填满。这是团队最想立刻开投的时刻。忍住。

阶段 3 —— 第 5 天:上线前排序(4 小时)

这一步是大多数团队跳过的,也是「我做了 200 条广告」和「我在第 9 天能拿出一份站得住脚的赢家短名单」之间的分水岭。

我在一分钱还没花之前,跑两轮筛选。

筛选 1 —— Anyword PPS 对最终文案重打分。 虽然前面用 Anyword 扩过角度,Claude 收紧后的最终文案和候选文案不是一回事。把最终 200 条按批次重打分,按 PPS 降序排。Top 60–80 通常集中在 75–95 分。65 分以下挂黄牌——留进测试,但打标签,方便事后审计。

筛选 2 —— 人工 review 砍稿(约 3 小时)。 我和创意总监坐在一起,对着素材表按顺序套这三条规则:

砍近似重复。 如果两个格子出来的图视觉上几乎一样,砍掉 PPS 较低的那条。auction 分不出,用户也分不出。
砍任何违反 brief 的。 承诺是"24 小时保湿",标题写"30 天焕变肌",那这条广告在测的根本不是同一款产品。砍。
打 wildcard 标签。 矩阵里 8–12% 的低分条目我故意留下,作为"模型是不是错了"的对照组。打星,方便第 3 天复盘。

筛完之后,大约 175 条上线。提前砍掉的 25 条,帮我们省下大约 $2,000 的浪费预算和 48 小时的混乱数据。

阶段 4 —— 第 6–9 天:用 Advantage+ 活动结构上线

在 Meta 上,投放结构本身和素材一样重要。我把所有 200 条都丢进一个 Advantage+ Shopping Campaign(ASC,智能购物广告系列),结构如下:

1 个 campaign(ASC,日预算 $4,200,lowest-cost 出价)
4 个 ad set —— 一个人群分群一个 ad set。每个 ad set 通过动态素材分配拿到全部 200 条广告。
不设受众排除规则 —— 让 ASC 自己跑。
不设手动 CBO（Campaign Budget Optimization,广告系列预算优化）上限 —— 给算法留空间。

为什么是一个 campaign 而不是五个?200 条广告的全部意义,就是让 auction 告诉你哪个「角度 × 视觉 × 格式 × 人群」组合能赢。拆成 5 个独立 campaign、各自设预算上限,等于重新把人的偏见塞回去,预算上限还会饿死长尾。

测试的前 48 小时全是噪音。auction 还卡在学习期,素材还在被索引,频次还在爬坡。前 48 小时别做任何决策,一天打开后台看一次就够了。

阶段 5 —— 第 8–9 天:第 3 天 kill + 第 3 天扩量

到第 8 天(大多数格子已有 3 整天数据),kill 规则可以跑了。三条规则,顺序不变,每条都用同一套:

规则 1 —— 曝光过 3,000 仍 0 购买的广告,直接 kill。 auction 已经公平出牌了,创意没接住,扔。护肤这个项目,这一条就砍掉了 41 条。

规则 2 —— 曝光过 1,500 且 CPA（Cost Per Acquisition,单次获客成本）超过目标 2 倍的,kill。 这个时候别看 CTR——这个体量下 CTR 会骗人,CPA 不会。

规则 3 —— ROAS 头部 5% 标记为扩量候选。 任何 ROAS 高出中位数 2 倍的,从 ASC 里拉出来,重新搭一条手动广告,加 Lookalike Audiences（LAL,相似人群扩展）和堆叠兴趣定向。原广告继续留在 ASC 里跑,新广告给 $400/天的独立上限去测扩量。

到第 9 天结束,护肤这个项目的表是这样的:41 条 kill、145 条在跑、14 条进入扩量测试。其中 3 条在一周内就触达 4x ROAS 目标,其中 2 条后来被品牌一直当作 evergreen control(常青对照组广告)。

9 天真正给你买到的是什么

它买到的不是数字上的"量大"。它买的是 defensibility(可辩护性) —— 一份有 6 天以上 auction 数据撑腰的 kill 名单,和一份信号足够强、能拿去跟持怀疑态度的 CMO（Chief Marketing Officer,首席营销官）或财务 lead 拍板预算重分配的赢家短名单。

这条流水线还顺带给你一个更难以量化、但更值钱的回报: 创意情报(creative intelligence)。到第 9 天你会知道:这个品牌上,问题感知文案的表现是方案感知的 2.3 倍。你会知道 UGC 镜面对 35+ 女性是减分项,但对 25–34 男性是加分项。你会知道成分特写这个概念能拿下复购用户,但会丢掉首次购买者。这些认知 brief 里一条都没有,全是矩阵跑出来的。

我想提前警告你一个坑:这条流水线会成功。它会产出赢家。它也会产出一堆"几乎赢家"——CMO 会想留着它们,因为 ROAS"够好"。照样 kill。在同一个 ad set 里,当你有 3.1x 的赢家时,跑 1.4x 的"几乎赢家"的代价不是 0——它是你本应押在赢家曝光上的那笔预算。每一次"先留着再说"都是对头部 10% 收益抽的税。

如果你一年只跑一次「200 条 / 9 天」,这套流水线在第一个 campaign 上就能回本。如果你每 30 天跑一次,它会变成一个能复利增长的引擎——角度矩阵越来越准,kill 规则越来越严,生产越来越快。到第 6 个月,同样的人同样的预算,你能在 6 天里出 200 条,而且头部 10% 的 ROAS 会结构性高于那些还在做 5 条 A/B 测试的团队。

这才是我唯一信得过的 A/B 测试:给 auction 足够多素材让它真的能告诉你什么,再配一套能让你听懂的排序系统。

Twitter LinkedIn Facebook Reddit Email

YouTube 标题+封面 A/B 测试：48 小时选出赢家的真实工作流让 ChatGPT 写 100 个邮件标题，最后能打的只有 5 个 A/B 测试样本量:别再拍脑袋了——这是我每次开测前都会跑的 Gemini 提示词用 Claude 把一个核心选题扩展成 30 天内容日历