用 ChatGPT 做 Meta 标题 A/B 测试:生成、排序、上线
目录
一个 SaaS 客户的博客文章在 "best CRM for small business"(最适合小企业的 CRM)这个关键词上卡在第 4 名将近四个月。每月大约 8,000 次曝光,点击率(CTR, Click-Through Rate)一直停在 3.1%。我用 ChatGPT 生成的一个标题变体重写了 Title Tag(标题标签),等了两周,同一个页面就冲到了第 2 名,CTR 涨到 4.4%——在曝光量基本不变的情况下,点击数提升了 41%。其他什么都没动:URL 没变、Meta Description(元描述)没变、正文内容没变。只换了 Title Tag。
就是这个单一结果,让我从一个"偶尔心血来潮才去改改标题"的人,变成了一个在发布任何有排名潜力的内容之前,都先跑一遍标题生成流水线的人。流水线分三步——生成、排序、上线——其中两步的引擎是 ChatGPT。
下面是我用的工作流。这不是一篇理论文章。读完之后你能拿到一个可以直接复制的 Prompt、一套可以跑起来的评分量表,以及一个不会被噪音骗到的测试方案。
为什么"凭感觉上线"通常会输
大多数营销人写完 Meta Title(Meta 标题,也就是搜索引擎结果里显示的标题)就上线了,只有在流量掉了之后才回头改。这在你排某个低量关键词的第一名时没问题。但当你已经进了首页、却没进前三的时候就会失败,因为:
- 位置偏置(Position Bias)对标题的惩罚比你想象的小,直到你冲进前三。 第 7 名的标题换一次,CTR 动 0.3%。第 3 名的标题换一次,能动 2-3 个百分点。
- 搜索意图漂移是真的存在的。 一月份匹配意图的标题,到六月份可能就对不上了。Google 在 SERP(Search Engine Results Page,搜索引擎结果页)里自动重写你的标题,通常就是一个信号——说明你的标题已经不再匹配搜索意图了。
- 你在真实环境里只有一次 A/B 测试的机会。 一旦上线,你学到的唯一方式就是换掉再等。所以你上线的那个候选,必须是从一堆里挑出来最好的,而不是周二晚上 11 点随手写的第一个。
ChatGPT 解决了"一堆"的问题。它自己解决不了"最好"——所以才需要第二步。
第一步——生成一批候选
大多数人犯的错:让 ChatGPT "给 5 个备选 Meta 标题"。你拿到的是 5 个礼貌的、泛泛的重写版本,听起来全都一样。
诀窍是用真正驱动 CTR 的信号去约束 Prompt。下面是我对任何我想冲排名的文章都会跑的 Prompt:
你是一个直销文案,曾经给高流量的 B2B SaaS 博客写过 Title Tag。我会给你:
- 目标关键词
- 文章的主要内容角度(一句话)
- 文章的 H1(页面上的主标题)
生成 10 个 Meta 标题变体。每一个都必须:
- 含空格在内 50–60 个字符(Google 超过 60 个字符通常会截断)
- 如果可能,主关键词放在前 30 个字符
- 彼此之间要明显不同——在 10 个里变换钩子结构。至少用上 4 种钩子类型:(a) 数字 + 收益("7 Tools That..."),(b) 年份 + 时效性("2025 Guide to..."),(c) 方括号澄清词("[Template] ..."、"[Free] ..."),(d) 反常识或否定式("Stop Doing X. Do Y Instead."),(e) 具体结果("Cut X by 40%"),(f) 带时间框架的 how-to,(g) 问句,(h) 对比
- 匹配目标关键词的搜索意图(信息型 / 商业型 / 交易型)
- 听起来像人写的,不像文案。No "ultimate guide"、no "comprehensive"、no "everything you need to know"
输出为带编号的列表。每个旁边标一个 5 词的"钩子类型"标签,让我能看出多样性。
目标关键词:[keyword] 内容角度:[一句话] H1:[h1]
Prompt 里有两个细节很关键。第一,50–60 字符的规则会阻止 ChatGPT 生成那种 90 字符的长篇大论——Google 不管也会重写。第二,要求 4 种以上钩子类型强制多样性——没有这行的话,10 个变体会全部以 "How to" 开头,或者全部用 "[年份] Guide to" 模式。
我会把温度(temperature)调到 0.8 跑两遍,然后把结果合并。这样我手里就有 20 个候选进到第二步。用 GPT-4o-mini 跑一次大概 4 美分。
第二步——用评分量表排序
原始变体不是决策。20 个候选需要打分。我用一个 4 项标准的量表,把它跑进 ChatGPT 当作评委:
你是一个资深 SEO 编辑。从 1–5(5 最好)给每个 Meta 标题按 4 项标准打分。要严格。
- 关键词对齐——主关键词出现在前 30 个字符内,且匹配搜索意图
- 清晰度——一个忙的快速浏览者 1 秒内知道这篇文章在讲什么
- 钩子强度——同一个关键词,你会不会点这个标题,而不是排第一的竞品?如果你不知道竞品,对比一个写得不差的通用 SaaS 博客标题打分
- 截断安全性——最重要的词能撑过 60 字符的截断
给每个变体打分,然后挑出前 3 名。输出表格:变体、各维度分数、总分、对前三名各写一句理由。
变体如下: [粘贴 20 个候选]
我之所以用 LLM 跑第二遍来排序、而不是肉眼挑,原因是它会逼你把标准定死。"这个感觉好点"是你自己讲的故事;"这个 18/20,亚军 15/20" 是一个你能在内容评审会上扛住的决策。
一个注意点:ChatGPT 当评委会有偏向长、更"完整"的标题的倾向。所以评分量表把单项分压到 5——没有上限的话,模型会给任何冗长的标题都打 5 分。我保留这个上限,并忽略模型给的平局决胜项;我会按"我"会点哪个,重新给前 5 名手动排一次。
SaaS 那个 41% CTR 提升的案例,来自一个 19/20 的变体,而不是模型自己选的 20/20。听量表的,但把标题大声读出来。
第三步——用一个干净的 A/B 测试上线
你手上有前 3 名。不要直接上第一名。把三个都跑完测试周期。这是为什么、以及怎么做。
测试设置
如果你用 WordPress + Yoast 或 Rank Math,用它们自带的标题测试(Rank Math 的 experimental titles,或者 Yoast 的 social previews + 手动替换)。如果你在自研栈上,把三个候选写进一个 Feature Flag(功能开关),按 33/33/33 轮转 14 天。关键是对每次页面访问做确定性轮转,而不是一次性替换。
CMS 测试的节奏:
- 第 1–3 天:写下对照组(当前标题)和 3 个候选。从 GSC(Google Search Console,Google 站长工具)拉过去 90 天的曝光和 CTR 作为基线。
- 第 4–10 天:只上线变体 A。对比 90 天基线的曝光 + CTR。
- 第 11–17 天:上线变体 B。每个周期独立对比,永远不混在一起看。
- 第 18–24 天:上线变体 C。
- 第 25 天:宣布赢家。
按周节奏的原因是:Google 的索引刷新和季节性,都是按周跑的。3 天的测试会骗你。
要看哪些指标
CTR 是头条指标,但不是唯一。在 GSC 里按变体追踪这 4 项:
- 曝光——重写标题可能改变排名(Google 可能会判断你的页面匹配了不同的意图),所以排名掉了之后 CTR 涨了是假赢
- 平均排名——应该保持平稳(±0.5)。波动更大就说明测试被内容或外链的变更污染了
- 按位置分桶的 CTR——把第 1–3 名、第 4–10 名、第 11+ 名的 CTR 分开看。第 1 名赢的变体,跟第 7 名赢的变体,不是同一个
- 品牌词 vs 非品牌词——在 GSC 里筛包含你品牌的 query。品牌词会推高 CTR;你要看的是非品牌词那一段的提升
如果你跳过位置分桶检查,迟早会庆祝一个"赢"——其实那是个位置下降、损失被比例稀释的 CTR。CRM 那个客户换标题之后曝光跌了 4%——CTR 的提升是真的(3.1% → 4.4%),但点击数几乎没动。我们最后还是换回去了。
什么时候定胜负
两条大致的统计规则,都是松的:
- 变体的 CTR 至少比对照组高 15%,并且
- 在测试窗口内变体至少有 1,000 次曝光
两条都过,上线。如果 CTR 过了但曝光不到 500(低量关键词、新页面),把测试再延长 14 天。两条都没过,说明标题不是瓶颈——去看 Meta Description 和 SERP 邻居。
我给"best CRM for small business"那篇会跑的变体
为了让这个不空话,下面是上个季度我给一篇类似文章 ChatGPT 跑出来的结果。模型在多样性上做得很到位——这就是好的 Prompt 给你买到的东西:
Best CRM for Small Business: 7 Picks for 2025— 数字 + 收益7 Best CRM for Small Business Teams (Tested)— 数字 + 社会证明Best CRM for Small Business: A Buyer's Guide— 面向受众的 how-toBest CRM for Small Business — Cut Tool Sprawl by 40%— 具体结果Best CRM for Small Business? 7 Tools We Recommend— 问句 + 回答[Free] Best CRM for Small Business: 7 Picks + Template— 方括号澄清Stop Using Spreadsheets. Best CRM for Small Business.— 反常识Best CRM for Small Business in 2025: 7 Picks— 年份 + 时效Best CRM for Small Business: 7 Picks Ranked by ROI— 排序 / 指标How to Pick the Best CRM for Small Business (7 Picks)— 带时间框架的 how-to
测试里,#4 赢了。具体结果("Cut Tool Sprawl by 40%")打败了通用的权威感钩子。这种结果类的文案,是我在周二晚上 11 点写不出来的——但眼前放着 10 个变体,我就负担得起测几个我本来不敢单独上线的。
这个流程做不到的事
标题改写可以拉 CTR,有时候拉得很猛。它救不了一篇意图不匹配、内容稀薄、或者技术问题卡住索引的页面。我见过团队在真正需要彻底重写的页面上烧了好几个月跑标题测试。这个流水线是"已经大致做对"的工作的乘数。把它跑在卡在第 3-7 名、内容真的能回答 query 的页面上。跳过那些还在第 40 名、正文 600 字都没讲清楚的。
开篇那个 41% 的提升,发生在 2,400 字、已经排名不错的文章上。同一套 ChatGPT 流水线跑在一篇 600 字的文章上,CTR 涨了 8%,但排名掉了。同样的工作流,不同的输入,不同的结局。用在页面其他部分已经在干活的地方。
我会跳过的一个东西
市面上有一些付费工具(CoSchedule 的标题分析器、Sharethrough 的、Capitalize My Title 的)按情绪或 SEO 量表给标题打分。它们不差,但跟这个工作流的第二步高度重叠。如果你已经在用 ChatGPT,跳过第三方评分器——把它的量表喂进 Prompt,你就能在同一次跑完里拿到差不多的分数。少一个标签页,少一个订阅,少一个要维护的集成。