我审计了 1200 个页面,标记出 340 个"有降权风险"——AI 工作流全公开
目录
上个季度,一个 B2B SaaS 客户把他们的域名丢给我,需求只有一句话:"告诉我们哪些页面会被下一次 Google 更新打掉。" 没有 Brief,没有方向。就 1200 个 URL、8 年的存量内容,和一份"你可以说真话"的授权。
我跑完了审计。340 个页面——占网站 28%——被标记为高风险,依据的是 Google 自 2024 年 3 月核心更新把"有用内容系统"并入核心算法后一直在释放的信号。客户删除了其中 280 个,剩下的合并重组。六周后,他们保留下来的页面自然流量平均涨了 23%,Search Console 里网站的整体曝光量在连续下滑 8 个月后第一次止跌。
这篇文章完整还原我用的审计框架。不是工具教程,是诊断逻辑——我给页面打分的具体信号、AI 让两周一气呵成的自动化流程,以及当你意识到网站三分之一的页面是问题所在时,你必须做的艰难决定。
为什么"有用内容"比你想的更难审计
Google 的质量系统是训练出来的分类器,不是基于规则的算法。官方文档里讲"以人为本的内容"、"专业性"、"满足搜索意图"——都是好用的框架,但当你盯着一张 1200 行的电子表格、试图决定哪些行会被惩罚时,模糊得让人抓狂。
AI 特别适合干这件事的原因:能完美合成"什么是供应链管理"这种文章的同一个模型,也能一眼认出哪篇文章是这种文章的拼贴版。规模化模式识别是 LLM(Large Language Model, 大语言模型)的主场。活儿不在分析本身,而在于搭建一个站得住脚的评分框架,把那些模糊的指南落到可观察的页面信号上。
我给每个页面评分的 7 个信号,按权重排序:
- 信息增量比(Information Gain Ratio)——这个页面是否告诉读者一些他们在搜索结果前 5 名里读不到的东西?还是只是对已经在排名的内容的换一种说法?
- 一手证据——是否有原创数据点、具名案例研究、来自作者自己工作的截图,或者可识别来源的引述?
- 主题专一度——这个页面是聚焦于搜索者想知道的某一件具体事,还是一个包罗万象的大伞页试图覆盖 10 个相邻查询?
- 内容-流量比——过去 12 个月,这个页面是否拿到了可观的流量,还是连续多年每月只有 0–5 次点击?(通过 Search Console 查。)
- 深度 vs. 字数——一篇 3000 字的文章可以很浅,一篇 600 字的文章可以很深。我评分的是:文章是否用最小的篇幅完整回答了隐含的问题。
- 更新时效——内容最后一次有意义的更新是什么时候?2021 年之后再没动过的页面,现在是负债,不是资产。
- 站内重复——同一个网站上是否有 3 个以上的页面在讲本质上一样的内容?同质化竞争(内耗)是 Google 甚至不需要明确点出的降权信号。
注意我没有评分的项:关键词密度、精确匹配锚文本、Schema 是否存在、页面速度。这些是技术 SEO 信号,是必要条件,但不够——也不是质量系统设计来抓的东西。
让两周一气呵成的 AI 工作流
这件事我手工做要两个月。AI 协助下用了两周。流程如下:
第一步:从 Search Console 和你的 CMS 导出所有数据。 页面 URL、标题、H1、Meta 描述、字数、最后修改日期、过去 12 个月的点击和曝光、平均排名。我把所有这些倒进一张 Google Sheet,通常 15–20 列。1200 个页面的网站,这是地基。
第二步:拉取每个目标查询的前 5 名 SERP(Search Engine Results Page, 搜索引擎结果页)竞争对手。 这是"信息增量"的基线。对网站上的每个页面,我想知道:Google 现在奖励的是哪些页面?如果前 5 名都是 2000+ 字、来自权威域名的指南,那么同一话题下你 600 字的页面是个硬仗——AI 几秒钟就能完成这个对比评分。
第三步:用 AI 给每个页面在 7 个信号上打分。 这是以前要花几周的环节。Prompt 大致长这样:
你是一名资深内容质量审核员,训练依据是 Google 的有用内容指南。我会粘贴一个页面(标题、URL、完整正文)以及该页面目标查询当前排名前 5 的结果。请按以下维度给页面打 1–10 分:(1) 相对现有前 5 名结果的信息增量,(2) 是否存在一手证据,(3) 主题专一度,(4) 深度-字数比,(5) 更新时效是否充分,(6) 可能的站内重复。对每个评分给一句话理由,引用页面里的具体文字。如果平均分低于 4,标记为删除;如果平均分 4–6 且站内存在近重复页面,标记为合并。
输出是你电子表格里的一行结构化结果:分数、理由、判定。"一句话理由"是让这件事站得住脚的关键——你能向客户展示这个页面为什么被标记,AI 还能引用页面第 47 行作为证据。
第四步:用 Search Console 的真实数据交叉验证 AI 的评分。 一个 AI 说很棒、但 18 个月来点击一直为 0 的页面,是有问题的。一个 AI 评分 4/10、但每月通过长尾查询带来 800 次访问的页面,正在发挥它的作用——留着它。人的工作是协调模型评分和真实流量信号。
第五步:生成处置方案。 三个桶:删除(质量差、无流量、无救活路径)、合并(内容还行但有重复,合并到更强的页面,剩下的做 301 重定向)、改进(潜力大、评分低于阈值但值得花 2–4 小时提升到标准)。最后一个桶通常只占总页面的 5–10%——大部分价值来自无情的删除。
处置环节的 80/20
这是审计中真正需要勇气的部分。
1200 个页面里,可能只有 60 个值得主动改进。另外 100 个是合并候选。剩下的 1040 个要么过时、要么重复、要么泛泛、要么从来拿不到流量。删掉它们对网站整体质量信号是正确的事——但很痛苦。每一条都代表团队某个人花过几个小时写,"删除"这个词对写这些文章的人来说很难开口。
我给客户做的工作框架是:你保留的每一个"不挣钱的页面",都是对所有你想排名的页面征的税。 Google 的全站质量信号是真实存在的。有用内容系统当年就是看整个域名上"有用"和"无用"内容的比例。一个有 800 个还行的页面和 400 个垃圾页面的网站,表现会差于一个有 700 个还行的页面和零个垃圾页面的网站。
这也是我反对"全部都改进"本能的地方。1200 个页面的网站,按每页 4 小时改进那 340 个被标记的页面,是 1360 小时的写作工作量,相当于一个全职写手 8 个月的工作量。而删除评分最低的 280 个页面、改进剩下的 60 个——是 240 小时、6 周,落地性强得多。那 280 个被删的页面反正也排不上去。
自己跑这个审计时要注意的三个坑
我见过团队第一次跑审计时踩的三个坑:
坑 1:信了 AI 的分数但没抽查前 3 名结果。 你的"前 5 名 SERP 竞争对手"拉取如果过时或跑题,模型会自信地犯错。至少抽 10 个页面,肉眼检查它们的前 3 名结果,再相信这个判定。
坑 2:把合并当成妥协,而不是策略。 一个做得好的 301 重定向(301 是永久重定向)会把被删页面的链接权重(链接权重)传给幸存的页面。做得对,幸存的页面比原来任何一个原页排名都高。做得错——重定向到首页或无关页面——你把权重倒进了下水道。
坑 3:把"量"误认成"价值"。 拿到一个低审计分数,常见的反应是"我们需要多写"。我审计过的大多数网站,问题出在内容太多,不是太少。恢复路径几乎总是删除 + 合并,而不是新增生产。
客户记住的那个框架
项目结束时,CMO(Chief Marketing Officer, 首席营销官)问我:"如果你要用一句话总结整件事,你会怎么说?"
我说:"Google 奖励那些'挣得存在资格'的页面。审计也要按这个标准来。"
这个框架之所以让人记住,是因为它抓住了一个在评分规则和电子表格里容易漏掉的东西。被降权的页面,不一定是在绝对意义上"差"——它们是相对于用户在结果页上本来可以得到的别的东西而言"差"。你网站上的每个页面都在和整个互联网争夺注意力。如果你这个没有别人没有的东西,你就输了——不是 Google 故意,而是用户有别的选择。
这套审计之所以有效,是因为它逼你逐页回答一个问题:这一篇,挣到了它的位置吗? 大多数网站对自己的 URL 给不出超过一半的"是"。能给出"是"的那些,排在前面。