Claude Computer Use:搭一个审核 Agent,给你的 Meta 广告素材做体检
目录
上季度,一个我长期代运营账户的初级媒介买家在晚上 11:47 给我发了条 Slack:"我们正在跑的广告里,我觉得有 23 条可能被拒。品牌那边要求天亮前全部下线。"Meta 的对接人没在线。她手里有 4 个小时,80 多条在投广告,和一份她已经靠"自动驾驶"跑了两个月的 checklist。熬到凌晨 3:30,她看了 41 条广告,漏掉了那条真正违规的——一条写着"100% guaranteed results"的线索表单(lead-gen form,一种先收集用户信息再跳转落地页的 Meta 广告格式)广告。这条广告又在线上挂了 36 小时,Meta 把它撤下之前,因为用户看到就跳走,我们损失了 14 个转化。事后复盘说的还是那句话,我每个团队都听过:"我们差点就抓住了。"
我第二周就搭了一个 Computer Use Agent。它不会取代审核人,但它把审核人工作里"无聊的那部分"在 12 分钟内干完——人类审核人的工作量从"扫 200 条广告"压缩到"看 12 个红色标记 + 23 个黄色标记,做 6 个判断"。这个比例,才是真正的产品。
为什么"人工审核"跑到第 80 条广告就崩
多数团队口中的"广告 QA",其实是两份工作被钉在一起:
- 政策合规(硬性不通过 / hard fail)——会被 Meta 审核拒绝的过度承诺、受限品类、缺失的免责声明、前后对比型表述、平台公布了拦截率但没几个人真看的 30 个高频违禁词。
- 品牌一致性(柔性不通过 / soft fail)——Logo 位置、配色匹配度、语气一致性、品牌团队强制要求的素材("必须带 8 折贴纸"、"不许用穿西装的素人图"、"主标题必须带 campaign 名字")。
一个专注的审核人,前 60–80 条广告两份工作都做得了。过了 80 条,要么开始不标柔性违规(最常见),要么速度掉到一小时看 5 条、错过 deadline(第二常见)。我 12 年里见过的每一条被下架广告,事后复盘长得都一个样:那是一个周二的下午,审核人已经累了,guaranteed 这个词藏在 primary text 的第 8 行。
这活儿天生适合 Agent:边界清晰、要看图、重复度高、规则稳定到一定程度,误报率可以接受。
我给 Agent 下 brief 用的"双轴"评估表
我不会让 Agent 自己去发明 checklist。每次都喂它同一张双轴表,账户负责人跑前把品牌专属条目填好。大致长这样:
| 轴 | 严重度 | 标记样例 |
|---|---|---|
| Meta 政策 | 红色(必拒) | "guaranteed / best in class / #1 / 100%";前后对比图;无免责的减肥/理财承诺;误导性健康声明;"免费"挂在付费产品上 |
| Meta 政策 | 黄色(可能被拒) | 落地页与广告内容不符;成人化用语;诱导性好评;理财类广告缺"结果不具代表性"提示 |
| 品牌一致性 | 红色(上线阻塞) | 缺 Logo;产品图错了;用到了禁用色(违反色板 hex,即色号);缺品牌强制要求的免责声明 |
| 品牌一致性 | 黄色(与品牌负责人复核) | 语气漂移("我们" vs 品牌偏好的"我");CTA(行动号召,如"立即购买")用语不在白名单;副标题超过格式字数限制 |
红色行是 Agent 的硬性 pass。黄色行是人类审核人的队列。 我手上有数据的几次运行里,Agent 把大约 12% 的广告标红、18% 标黄——也就是说,人类审核人的工作量压缩到原来的 30% 左右,而且这 30% 的平均决策时间也降到 15 秒左右,因为 Agent 已经把违规那一行粘到输出行里了。
三层搭建(没有意外)
这篇文章不重复讲 Docker([SERP 简报那篇 Computer Use 文章]里已经覆盖了:容器镜像、xdotool 派发器、screenshot-to-tool-result 的循环,完全一样)。我重点讲广告 QA 版本和内容简报 Agent 不一样的三层。
第 1 层——Agent 拿到广告创意的入口。 Meta Ads Manager 的"预览"链接就是输入。Agent 打开它,广告渲染出来,截图就是 ground truth。我不直接喂它创意文件——多数账户团队就在 Ads Manager 里工作,而预览页正是 Meta 审核员看到的画面,这也是正确的参考图。(这意味着 Agent 只能抓到普通状态下 Meta 审核员会抓的东西;如果 Meta 那天心情特别严,你照样会被拒。这不能怪 Agent。)
第 2 层——双轴评估表作为系统提示词加载,不是作为工具。 评估表就是角色定义。Agent 的工作是"一个偏执、严格的创意审核员,按这张具体 checklist 干活"。如果你跟它说"review these ads for issues",出来的是空话;换成"你是一名 Meta 广告审核员,按下面这张具体的 rubric 检查,必须按 CSV 格式,每条广告一行返回 severity、axis、line、fix",出来的就是你直接能粘进 Slack 讨论的结构化输出。
第 3 层——输出是 CSV,不是段落。 一张 CSV,列名:ad_id, axis, severity, line, fix。一个标记一行。一个广告有多个标记,就写多行。完全通过的广告不出现在 CSV 里——沉默即绿色。这种格式故意做得朴素:早上 7 点的创意总监不想读 80 个段落,他想要的是一张能排序的电子表。
我真在跑的系统提示词
这是当前在 3 个账户上跑的生产版。把品牌专属那几行抽掉,就能直接复用:
你是一名资深的广告创意审核员。你正在 Meta Ads Manager 里审核广告。
按下面这张 rubric 检查,不要按你自己的判断。
你将收到:
- 一个 Meta Ads Manager 的预览链接
- 品牌方的 BIBLE.md 文件(Logo 位置、配色、语气形容词、强制免责声明、
禁用素材、campaign 强制短语)
对页面上的每一条广告:
1. 截一张广告卡片的图。
2. 读 primary text、headline、description,以及任何可见的图片。
3. 按下面的 rubric 检查。
4. 如果广告有任意一条标记,在 /review/flags.csv 末尾追加一行 CSV,字段:
ad_id, axis (policy|brand), severity (RED|YELLOW), offending_line, fix。
Rubric —— 政策(RED):
- 出现以下任意词:"guaranteed"、"guarantees"、"100%"、"#1"、
"best in class"、"the best"、"lowest price"、"risk-free"、
"no risk"(明显是金融产品除外)。
- 前后对比型,或减肥/理财承诺缺标准免责声明。
- 落地页不匹配(广告承诺 X,页面是 Y)。
- "Free"挂在付费产品上。
- 成人化用语、敏感品类、政治内容。
Rubric —— 政策(YELLOW):
- 诱导性好评("写好评返 20%")。
- 健康/理财承诺需要"结果不具代表性"提示但没带。
- 价格类声明应该链到价格页但没链。
Rubric —— 品牌(RED):
- 缺 Logo,或 Logo 位置不在白名单内。
- 配色不在 BIBLE.md 的 hex(色号)列表里。
- 缺 BIBLE.md 强制要求的免责声明。
- 图中出现品牌方不卖的产品。
Rubric —— 品牌(YELLOW):
- 语气漂移:BIBLE.md 的语气形容词是"温暖、朴素、不堆术语",
广告里堆了术语。
- CTA 不在白名单用语里。
- 副标题超过格式字数限制。
规则:
- 一个标记一行 CSV,不是一条广告一行。一条广告可能有多行。
- 如果一条广告零标记,**不要**给它写一行。
- `offending_line` 字段必须是广告文案里的精确子串,带引号,
方便人类审核员 2 秒内定位。
- `fix` 字段是 1 句话的修改建议,不是改写。
- 当你处理完页面上每一条广告,停止。不要跑第二遍。
- 如果出现 CAPTCHA,返回 "BLOCKED" 并停止。两个细节决定生死。第一,"零标记不写行"这条规则是 CSV 保持可扫的关键。没这条,Agent 会写 80 行确认,审核员又退回到通读模式。第二,"offending_line 必须是精确子串"是把"AI 噪声"变成"人类速度工具"的那一行——审核员 ctrl-F 2 秒定位文案,而不是重读整条广告找违规点。
实际输出长什么样
上个月跑了一个 78 条广告的账户,Agent 产出了 41 行的 CSV。前 6 行长这样:
ad_id,axis,severity,offending_line,fix
104293817,policy,RED,"#1 rated email tool for SMBs",去掉 "#1" 这种最高级;"Top-rated" 普遍能被通过。
104293821,policy,YELLOW,"Loved by 50,000 marketers",加一个脚注链到可核实的评价来源。
104293842,brand,RED,(carousel 第 3 张卡片上没 Logo),重新导出 carousel,按 BIBLE.md 在第 1、3、5 张卡放 Logo。
104293842,brand,YELLOW,"Our proprietary AI engine",BIBLE.md 语气是"朴素、不堆术语"——换成"我们内置的模型"。
104293855,policy,RED,"Guaranteed 3x ROI in 30 days",删掉 "guaranteed"——我跑下来,Meta 拒这个确切短语的概率 > 90%。
104293861,brand,YELLOW,"Limited time — ends Friday",和品牌方确认 campaign 的硬截止日;广告写周五,brief 写周日。注意输出里没有什么:没有"广告整体写得不错,但是……"这种开场白。没有开场白。没有审美反馈。Agent 没资格对创意发表意见——它的意见只能落在 rubric 上。审美反馈是人类审核员该干的活,而且那部分恰好是审核员喜欢干的活。
它真正发挥价值的地方(和不发挥价值的地方)
它发挥价值在夜班审核的场景:发版前一晚 200 条广告 11 点要审、或者 14 天 campaign 中段审计、或者任何你心里在嘀咕"我们的素材库里有啥会在明天被下架"的时刻。过去 4 个月,我的账户团队用了 17 次,Agent 的红色标记和 Meta 审核员真正会抓的东西命中率大概 85%。剩下 15% 是已知的"假阴性底线"——Meta 的人类审核员在边缘情况上仍然更强(一个巧妙的双关在疲惫的审核员眼里像健康声明、一张人物腰腹部的图被认成减肥语境)。
它不发挥价值在:
- Campaign 头 3 条广告——人类肉眼能更快发现大的创意方向问题。
- 依赖视觉判断的广告("这张食物图看着诱不诱人"),这不是 checklist 问题。
- 品牌 BIBLE.md 没在维护的任何场景。垃圾进,垃圾出——如果你的 BIBLE.md 是 2023 年写的陈旧 Google Doc,Agent 会拿 2023 年的品牌规则卡 2026 年的广告。
老实说:Agent 不能取代审核员。它取代的是审核员工作中"扫 200 条广告、尽量别睡着"的那 4 小时。 配上这个 Agent,审核员同样一份审计 35 分钟搞定,红色标记的捕获率比没配 Agent 的基线高大约 10%(因为 Agent 看到第 140 条广告不会累),省下来的时间就花在只有人才能干的事上:跟创意总监说这次 campaign 的定位偏了、把那一两条差广告改掉,而不是把它们扔在自动驾驶模式里。
那条 11:47 PM 的 Slack 消息,有了这个 Agent,事后复盘会完全不一样。买家那天晚上面对的会是 41 行 CSV,而不是 200 条广告的 checklist。那条 "guaranteed" 的广告会出现在 CSV 的第 5 行,而不是她挤出时间看到的第 41 条广告里。损失掉的那 14 个转化,还是 14 个——但下一波、下一季 campaign 里的那 14 个,就不会再丢了。