Google Ads RSA:用 Gemini 一小时找出 30 条低质量 Pin,90 分钟全部重写
目录
那 30 条我差点没重写的低质量 Pin
六个月前我有一个直觉。一个长期合作 B2B SaaS 客户,每月在 Google Ads (谷歌广告) 上花 4.2 万美元,分布在 38 个 RSA (Responsive Search Ads,自适应搜索广告) 里。其中大约三分之一的 Pin 被 Google 的素材表现评级 (Asset Performance Label) 标成 "Low" 已经超过 90 天。我清楚这个标签不太靠谱。也清楚 Google 的 "Low" 几乎只看 CTR (Click-Through Rate,点击率)。但我从来没真的坐下来,一条一条看过这些 Pin 本身。
我终于这么做了。把素材表现报告导出来,把 240 条评分偏低的标题和描述扔进同一个 Gemini 1.5 Pro 会话,让它在四个 Google 根本不统计的维度上给每条打分:主张强度、具体度、跟同组其他素材的情绪对比度、CTA (Call To Action,行动号召) 清晰度。两小时后,我标记出 30 条真正有问题的 Pin——不是"CTR 低"那种差,而是同义反复、毫无个性、或者跟组里其他素材完全重复。再花 90 分钟用结构化提示词重写,粘回 Google Ads Editor,保存。总耗时 2.5 小时,加上最初的导出。
同样的审计,如果纯手工做,至少要一整个工作日。如果交给初级同事,加上上下文切换和后续追问,会拖到一周。省下的 6 小时还不是重点。重点是接下来 30 天这三个广告组的真实变化:展示量上涨 14%,11 个 RSA 的平均 Ad Strength (广告强度) 从 "Average" 升到 "Good",表现最差那一组的单条线索成本 (CPL) 下降了 22%。我没有对照组 RSA,所以这些数据不构成严格的因果关系,但方向上的结果与审计结论一致,而且真实。
下面是这个工作流本身,以及我用到的四条提示词。
为什么大多数 RSA "Low" 标签会误导你
Google 给每个素材打的 "Low / Average / Good / Best" 标签,本质上就是同一个图表上的一个数字,几乎完全根据该素材的 CTR 与同广告组同类型其他素材的相对表现计算得出。一条"Low"标题可能是一句高意图、超具体的短语——它 CTR 不高,是因为它只匹配了搜索意图中很窄的一类。这不是坏标题,这是好用的标题。一条"Best"标题可能只是 "Best CRM Software 2025" 这种模板句,赢得了拍卖次数,但浪费了点击。
所以,在你相信这些标签之前,你得真的给文案本身打分。按顺序问四个问题:
- 这条素材说了同组里其他素材没说的话吗? Google 不会因为你有十种"Trusted by 5,000+ teams"的变体就奖励你。如果十五条标题里四条都在说"trusted",其中三条就是浪费位置。
- 它是不是一个具体、可被证伪的主张? "High quality service" 是占位符。"Reply within 4 hours, every business day" 是个主张。"Reply within 4 hours" 是 CTA。
- 竞品能不能把这句原封不动粘进自己的 RSA? 如果能,这条素材的差异化贡献就是零。拍卖照常跑,但用户根本分不清你和他的广告。
- 这条素材在的位置对不对,还是被 Pin 到了一个不属于它的位置? Pinning (钉位) 是一个独立的、更深的问题。被 Pin 的素材会被强制塞进那个标题位,无论用户在搜"free CRM"还是"enterprise CRM migration"。如果一句泛泛的"Free 14-Day Trial"被 Pin 在位置 3,你每次展示都要为它买单,而它很可能在商业意图查询上专门拖低 CTR。
你可以手工对 240 条素材做这四个问题的评分。要花一整天,而且到第 80 条你就会走神。Gemini 两分钟就打完,理由还能读。
五步工作流
第一步:导出素材报告并标准化
在 Google Ads 里,打开账户,Ads & assets > Assets > Asset performance,日期范围设到最近 90 天以上(每个素材需要足够的数据量,标签才有意义——大多数账户,60 天以下会出现大量 "Pending")。添加这些列:Asset、Asset type、Ad group、Ad strength、Performance、Impr.、CTR、Pinning preference(如果有的话)。下载成 CSV。
在 Google Sheets 里打开 CSV。只保留 Headline 和 Description 两种类型。然后筛选 "Low"——你不打算评全部素材,你打算评底层那一档。如果想更彻底,也可以评所有素材,但从被标记的开始,投入产出比最高。最终你会得到 30 到 300 行,取决于账户规模。
加两列辅助列。一列是所在广告组的完整名字(这点很关键——同一句标题在 A 广告组可能是神来之笔,在 B 广告组就是废棋)。一列是该素材当前是否被 Pin 到某个位置。Gemini 的下一步会用到这两列。
存成 CSV,准备好粘贴。下一步要把整张表直接喂进去。
第二步:跑评分提示词
打开 Gemini 1.5 Pro。粘入下面这段提示词,下面再粘上 CSV(Gemini 接收表格化输入,1000 行以下没问题;数据量特别大,每 200 行切一批):
You are a senior paid search strategist reviewing RSA (Responsible Search Ad) assets for quality. For each asset below, grade it on four dimensions, each scored 1-5:
1. UNIQUENESS — does this asset say something the other assets in the same ad group do not already say? (5 = highly distinct, 1 = paraphrase of a sibling asset)
2. SPECIFICITY — does it make a specific, falsifiable claim, or is it generic filler? (5 = a real claim with a number / time / mechanism, 1 = "high quality" / "trusted" / "best")
3. COMPETITOR-DIFFERENTIATION — could a direct competitor paste this asset verbatim and look the same? (5 = clearly about us, 1 = indistinguishable)
4. POSITION FIT — given the asset's pin location (if any) and the ad group's typical search intent, is it in the right slot? (5 = ideal, 1 = hurting the ad)
Return a markdown table with columns: Asset, Type, Ad Group, U, S, D, P, Total, Verdict (KEEP / REWRITE / REMOVE), Reason (one short sentence).
Be honest. Most assets in a typical account are mediocre. Don't inflate scores to be polite.关于这个提示词的几点说明:
- 四维度评分标准是整个工作流的核心。 一个笼统的"quality"分数会滑向主观感受。四个明确的维度逼着模型去检查四件不同的事,从而暴露 CTR 标签漏掉的那种失败模式。
- Verdict 这一列就是行动输出。 你不是让 Gemini 做完诊断再做分诊——你让它分诊一步到位。你不用重读 240 行评分,只要按 Verdict 排序,只看 REWRITE 和 REMOVE 那两堆。
- "Be honest" 这句是必要的。 如果你客客气气,模型默认打分偏 nice。逼它承认大多数素材是平庸的。结果是更真实的分数分布。
240 条素材的输出,60-90 秒回来。这张表首轮大约 80% 是对的。剩下 20% 你手工修——但你现在审的是一张评分表,不是从零打分,认知负担小得多。
第三步:标记底部 30 条并决策
把输出按 Total 升序排。最底部 30 条几乎总是会分成三组:
| 组 | 典型总分 | 怎么处理 |
|---|---|---|
| REMOVE | 8/20 以下 | 泛泛的填充句("Trusted By Thousands"、"Quality Service"),毫无贡献,挤占了好素材的展示位。直接在 Google Ads 里暂停。 |
| REWRITE | 8-12 分 | 角度 OK 但执行差。"Reply in 4 hours" 是具体的,但同组其他素材太泛,所以这条反而是组里唯一具体的东西——保留这个角度,重写执行。 |
| KEEP | 12+ 分 | 被 Google 标了 "Low",但其实没问题——通常是窄意图或长尾短语,自然没量。别动它们。 |
我那位客户的 30 条是 19 REWRITE、11 REMOVE。这个分法正好是第四步的合格输入。
第四步:用结构化提示词重写
把 19 条 REWRITE 拿回到第二个 Gemini 会话里。提示词:
You are rewriting 19 RSA headlines and descriptions for [CLIENT NAME], a [VERTICAL] company. The current assets are flagged below as low-quality, with the reason they failed (the 4-dimension grade from the prior session).
Constraints:
- Headlines: max 30 characters each
- Descriptions: max 90 characters each
- Do not reuse any phrase from these existing high-performing assets: [PASTE 5-8 OF THE BEST ASSETS IN THE AD GROUP]
- Do not use the words "trusted," "best," "leading," "top-rated," "high-quality," "premier," "cutting-edge," "solutions" — these are dead phrases for this client
- Match the [CLIENT]'s tone: [2-3 sentence voice description, e.g. "concrete, technical, never breathless, occasionally wry"]
- For each rewrite, output the new asset, a 1-line reason for the rewrite, and a self-rated SPECIFICITY score (1-5)
Produce 3 candidate rewrites per asset (57 total) so I can pick the best one.
Existing assets to rewrite:
[PASTE THE 19 ROWS WITH GRADING REASONS]输出是 57 个候选,每个都带一个自我评的 SPECIFICITY 分数。每条选最佳,大多数情况下模型自己挑的(打分最高的那个)就是对的,15-20% 的时候你会想换一个略不同的角度。
这次会话耗时:30-40 分钟完成 19 条,包括阅读和选择。手工做同样的 19 条重写,资深至少 3-4 小时,初级更久。
第五步:校验、回填、保存、观察
上传之前:
- 把新素材再跑一遍第二步的评分提示词。 你不是让模型自己批改自己——你让它验证新素材分数是否高于旧素材。如果一条新写的反而比分低,扔掉。
- 检查字符数。 Gemini 偶尔会写出 31 字符的标题。别相信模型,自己把每条粘进 Sheets 的
=LEN()列核一遍。 - 检查禁词表。 一条
=SEARCH公式就能在禁词表里捞出"trusted"藏在"Trusted Reviews"里之类的漏网之鱼。 - 粘到 Google Ads Editor 里,挂到对应广告组,保存,提交。
然后看接下来 14-21 天的素材表现标签。不会有立竿见影的大变化——Google 需要新的展示量来重算标签——但一个月内,这些广告组的素材级 "Low" 数量应该下降 50-70%。
下次我会改的地方
三件,按重要性排序。
第一,别跳过位置适配 (Position Fit) 评分。 我第一次跑的时候,只评了 Uniqueness、Specificity、Differentiation 三个维度。一条被 Pin 的标题,技术上又具体又独特,结果被打成 "KEEP"——但它在拖垮这条广告,因为 Pin 的位置是错的。Position Fit 这个维度就是干这个的,也是整个审计里最被低估的一块。
第二,把同样的事也跑在 "Best" 素材上,不只跑 "Low"。 Google 的 "Best" 标签是样本量的产物,跟素材质量只是弱相关。一条 "Best" 标题,只是因为它在 80% 的展示里都出现才赢了点击,跟"靠文案本身赢得点击"是两码事。重新评一遍头部 25% 的素材,会暴露"靠运气被标 Best"的素材,这些往往才是全账户最值得重写的部分。
第三,把这件事排进季度重复任务。 RSA 素材会衰减。一条三月表现神勇的标题,到七月可能已经变成泛泛的占位符,尤其在 B2B 行业,整个品类的语言都在变化。整个工作流——导出、评分、标记、重写、回填——有了提示词之后一气呵成两三个小时,第一次跑完就能回本,跑得越多越快。
如果你只有 90 分钟,就做这个精简版
实在没时间跑完整流程,只做这几步:
- 导出素材报告(10 分钟)
- 只对 "Low" 跑第二步评分提示词,不评全表(10 分钟)
- 挑出最差 10 条,分成 REMOVE / REWRITE(10 分钟)
- 选 5 条 REWRITE 跑第四步提示词,每条只要 2 个候选(15 分钟)
- 校验并回填(15 分钟)
- 把整组提示词和一份新旧素材对比表存进按日期命名的文件夹,下季度还能直接用(30 分钟)
你抓不住全部,但能抓住最差的那部分,而且你会拿到一组能复用的提示词,每跑一次都会更快。第一次审计永远最慢。
单次审计相对纯手工省下 4-6 小时。一个季度跑一次,一年省 16-24 小时,加上实际的广告表现提升,那才是真正付账的部分。