Content

內容四維評分卡:E-E-A-T、深度、新鮮度、結構(Claude)

內容四維評分卡:E-E-A-T、深度、新鮮度、結構(Claude)
目录

上個月我從「準備發布」資料夾裡抽出 47 篇稿子——都是我直覺覺得不錯的——然後跑了一遍 0-100 評分卡。19 篇沒過 75 分,6 篇甚至不到 60 分。47 篇我原本都要發。評分卡攔下了 19 篇,否則這些文章會慢慢拖垮整個網站,而我過去幾年一直把自己的直覺當成「夠好」。

這套評分卡就是四個維度,每個 0-25 分:E-E-A-T、深度、新鮮度、結構。分數計算方式固定,評分標準寫在 Prompt 裡,同一套標準可以批量審計現有文章(一次 10 篇)。這篇文章講清楚評分標準、Prompt、門檻邏輯,以及為什麼一套評分卡在人員流動的環境下比風格指南更靠譜。

四個維度

每個維度 0-25 分。任一維度低於 16 分,屬於結構性問題,不是改幾行字能修的——別小修,那一節重寫。總分只是參考資訊,關鍵在每個維度的下限。

1. E-E-A-T(經驗、專業、權威、可信)— 0-25 分

E-E-A-T 是大多數「AI SEO」文章最容易搞錯的地方。大家追 E-E-A-T 是去加作者簡介、加「醫學審核」免責聲明。這就偏了。Google 的質量系統看的是內容本身的證據,不是署名。E-E-A-T 四個字母拆開打分:

  • 經驗(0-6 分) — 作者有沒有展示親身操作?用自己帳號的截圖、自己表格裡跑出來的數字、帶著真實檔案的工作流。「我跑了 3 次,2 天內」比「你可以在工作流中這樣做」得分高。讀者看不出作者到底做沒做過,分數 0-2。
  • 專業(0-6 分) — 具體的技術深度,不是術語密度。寫出具體的 API 呼叫、真正的設定檔、實際踩到的錯誤訊息。「設定你的 DNS」是 0 分;「給 mail.example.com 加一條 A 記錄指向 192.0.2.45,TTL 300,再加一條 SPF 的 TXT 記錄」是 5-6 分。
  • 權威(0-6 分) — 引用來源、命名工具、具名人物、附連結的研究。不是「據專家稱」——哪位專家?不是「研究表明」——哪一項研究?連結到 Google 官方文檔、Ahrefs 數據、LinkedIn 上某位具名人物的發言,5-6 分。連結到「多方資料」的,0-1 分。
  • 可信(0-7 分) — 沒有無支撐的論斷、時效性內容有日期戳、不引用失效連結、對真正該保留不確定的部分有保留態度。可信這個維度給 7 分的權重是刻意的:可信一旦丟掉,修復成本最高。一個自信地寫錯的數字,會把整篇文章其他部分的權威感一起拖下水。

E-E-A-T 拿 22/25 的文章,有真實案例、真實數字、真實截圖、真實連結、有日期戳。拿 12/25 的文章,頂部放個作者簡介就完事了。

2. 深度(0-25 分)

深度不是字數。一篇 3000 字的文章可能只得 8 分。一篇 700 字的文章可能拿到 22 分。深度指的是有沒有越過表面的觀點

三個打分信號:

  • 數字與案例(0-10 分) — 不是「很多行銷人」,而是「63% 的 B2B SaaS 網站」。不是「效果不錯」,而是「在某 200 URL 的網站上,這個方法為分類頁每月新增 410 次點擊」。證據的單位是具體數字。全文 2 個以上:6-8 分。5 個以上,且含 1 個反直覺或對立觀點:9-10 分。
  • 回應反方觀點(0-8 分) — 每篇文章都在推薦某種做法。高深度的文章會說明這個推薦不適用的場景、推薦的成本、替代方案。「用 Claude 做內容評分」是淺的;「用 Claude 做內容評分——但法律合規類文章跳過它,因為虛構引用的代價太高」才是深度。
  • 機制而不只是結果(0-7 分) — 作者有沒有解釋為什麼有效,而不只是說它有效?「帶截圖的文章排名更高」是結果。「帶截圖的文章排名更高,是因為圖文並茂的結果頁點擊率(Click-Through Rate, CTR)是純文字的 1.6-2.1 倍,而停留時間長 18%——讀者先確認頁面符合意圖才會往下滾」才是機制。

深度是 AI 生成內容最穩定失守的維度。模型能寫一篇 1800 字、但跟搜尋結果前 5 名沒什麼區別的文章。評分:9/25。

3. 新鮮度(0-25 分)

新鮮度是編輯最容易跳過的維度,因為它要的不是寫作而是查驗。三個檢查項:

  • 過去 18 個月內的引用(0-8 分) — 數據、研究、產品發布、API 變更。「據 2023 年 HubSpot 報告」對幾乎所有行銷話題都已經過時。18 個月是底線。還在引用 2024 年之前 SEO 數據的文章,現在是誤導性的——2024 年 3 月的核心更新改變了底層假設。
  • 當前的產品介面(0-8 分) — 如果文章有儀表板、後台、設定頁的截圖,那個截圖是當前的版本嗎?Klaviyo 的活動建立器(campaign builder)自 2023 年起經歷了三次較大改版。Mailchimp 的自動化建立器改過兩次。2022 年的截圖,2/8 分。過去 6 個月內的截圖,7-8 分。
  • 無失效連結的論斷(0-9 分) — 「Klaviyo 有 X 功能」這類論斷如果沒附上 Klaviyo 的文檔連結,就屬於失效連結的論斷。「Google 說 X」這類引用,如果鏈的是 2021 年的部落格文章而後續已更新,也算失效。修法不是刪掉論斷,是補上連結。引用到活的、最新來源的文章,8-9 分。寫「根據近期研究」的,0-2 分。

新鮮度單獨成一個維度是有原因的:它是發布後最難修的維度。一篇淺的文章可以加深。一篇過時的文章必須從頭重新研究,而大多數團隊永遠不會去做這件事。

4. 結構(0-25 分)

結構是最容易打分的維度,因為規則是機械化的。五個檢查項:

  • 可掃讀的 H2(0-6 分) — 每個 H2 是一個論斷、一個問題、或一個子承諾——不是「前言」、「背景」、「其他考量」。「為什麼『有用內容』比你想的更難審計」是 6 分。「概述」是 0 分。
  • 有用的子項目(0-5 分) — 壓縮資訊的子項目,本來需要 2-3 句話才能講清的東西。一個 14 項、每項只有一個詞的清單,0 分。一個 5 項、每項替代一個段落的清單,5 分。
  • 可用的目錄(0-4 分) — 1200 字以上的文章,要在正文內(不是側邊欄)放目錄連結到各 H2。
  • 沒有文字牆(0-5 分) — 沒有超過 5 句的段落。沒有連續 4 段都沒有小標題、表格、清單的章節。這個維度上 AI 容易以另一種方式失誤:滿屏 3 個一組的清單,完全沒有連貫的過渡。
  • 答案前置(0-5 分) — 前 200 字就直接回答 H1 問題,或至少給出方向。不是「本文將探討」——「答案是 X,原因是這樣」。讀者(以及 Google 的抽取系統)都獎勵把答案先講出來的文章。

整個 Prompt

整套評分卡靠一段 Prompt 跑起來。我把稿子和評分標準一起貼進去,Claude 返回四個子分、總分、和整改清單。Prompt 原樣如下:

你是一個嚴格的上線前內容審核員。請按下列四個維度(每個 0-25 分)為以下文章打分,使用下方評分標準。每個維度給出子分、一句話引用具體行數的證據,若分數低於 18 分再附一句整改建議。

E-E-A-T(0-25 分): 經驗——作者是否展示親身操作(截圖、自己工作流中的真實數字、具名流程)?專業——具體技術深度而非術語密度?權威——有連結的來源、命名工具、具名人物?可信——沒有無支撐的論斷、時效性內容有日期、該保留的地方有保留?

深度(0-25 分): 數字與案例(具體而非模糊)?回應反方觀點?解釋了機制而不只是結果?

新鮮度(0-25 分): 過去 18 個月內的引用?截圖中的產品介面是當前版本?沒有失效連結的論斷(每個「X 說 Y」是否連結到活著的來源)?

結構(0-25 分): 可掃讀的 H2(論斷式而非標籤式)?有用的子項目(壓縮而非碎片)?超過 1200 字有可用目錄?沒有文字牆段落?前 200 字答案前置?

最後輸出:(1)每個維度子分,(2)總分 /100,(3)一份編號整改清單——每條一行,寫成可執行的修法(「給提及 Klaviyo UI 的句子加日期戳;該段落來自 2023 年」)。總分低於 75 分,文章不可發布。任一維度低於 16 分,無論總分多少,文章不可發布。

稿子: [貼上]

「整改清單」是把評分卡從一個裁決變成工作流的關鍵。「E-E-A-T:14/25」是個數字。「給提及 Klaviyo UI 的句子加日期戳;該段落來自 2023 年」是你 4 分鐘能修掉的東西。

門檻邏輯

75/100 總分是底線。16/25 子分是每個維度的底線。兩條都得過。

兩條門檻、不是一條的原因:一篇文章可以通過 E-E-A-T 22/25、深度 22/25、結構 22/25、新鮮度 12/25 拿到 78 總分。這個總分看起來不錯,但有一個結構性漏洞——通常是 E-E-A-T,通常是因為作者跳過了親身操作這個環節。12/25 的維度是文章的承重牆,下一次 Google 更新就是那場地震。任何一個塌了的維度都會把其他維度在重新閱讀時一起拉下來。

我用這套標準給最近 60 篇文章打分,結果是:

  • 38 篇第一次就過 75/100 且任一維度不低於 18。直接發。
  • 14 篇總分過 75 但有一個維度 16-17 分。重寫那一節,重新打分,發。
  • 6 篇總分低於 70。砍掉,用更聚焦的 Brief 從頭來。
  • 2 篇各項都過了,但在事實核查中發現一個錯誤數據。打回研究環節,之後再重新打分。

75 不是質量判斷,是「發還是改」的閘門。這個數字就只是個數字;它真正的作用是把「靠感覺」的判斷變成一個決策。我不再跟自己辯論這篇稿子行不行——評分卡告訴我行不行,整改清單告訴我修哪裡。

批量審計現有文章:10 篇一批

評分卡不只用於新稿。它也是分診存量內容最便宜的方式。我對 200 篇歷史文章用的工作流:

第一步:匯出 URL、標題、最後修改日期、每篇的前 200 字。 做成表格。前 200 字是評分卡找出問題文章所需的全部——被標記出來的文章再讀全文。

第二步:每批 10 篇跑評分卡。 把 10 篇貼進同一個 Claude 回合,要求每篇輸出維度分數和裁決(保留 / 更新 / 刪除)。前 200 字的樣本足以標記 80% 的低質量文章;剩下 20% 需要深入讀,但工作量已經縮減了 5 倍。

第三步:分三個桶:

  • 保留不動 — 分數 ≥ 75、且任一維度不低於 18。什麼都不用做。
  • 更新 — 分數 60-74,或任一維度 14-17 分。加 1-2 小時的更新(新的截圖、新的數據、新的連結、新的日期戳)。重新打分。
  • 刪除 — 分數 < 60,或任一維度低於 14 分。更新成本超過流量價值。301 重定向到最相關的同類文章,然後放下。

在我審計過的典型 200 篇存量中,比例大致是 50% 保留、25% 更新、25% 刪除。25% 的刪除才是價值所在。你留下的每個不掙錢的頁面,都在向你試圖排名的每個頁面徵稅。整站質量信號是真實的,一個 200 篇的網站帶著 50 篇死頁,表現會差於一個 150 篇、死頁為零的網站。

1-2 小時的更新預算是大多數團隊會低估的部分。「更新」不是「加一段話」——它是一輪真正的工作:重新截圖 UI、重新查來源、重新打日期戳、重新確認範例還能跑通。20 分鐘就完成的更新通常是刷漆,不是修。

為什麼評分卡勝過靠感覺編輯

評分卡的可取之處不是準確性——Claude 會漏掉人類編輯能抓到的東西。可取之處是跨寫作者的穩定性跨人員流動的存活能力

我帶三個寫手、一個兼職編輯的時候,「看起來不錯」的判斷活在編輯腦子裡。她對「一篇好文章」有感覺。然後她離職了。下一個編輯有另一種感覺。第三個編輯沒感覺,靠前兩個編輯的批註學,而那些批註互相矛盾。發出去的東西質量跟當時是誰在審有關,跟文章本身無關。

評分卡用兩種方式解決這個問題。第一,它強迫每個審核者——無論人還是 AI——按同一個標準、在同一類證據上打分。「這文章不好」是感覺。「這文章 E-E-A-T 拿 12/25,因為沒有親身操作、唯一來源是 2021 年的部落格文章」是裁決。後者是 5 分鐘的修法。

第二,評分卡能熬過編輯的離開。Prompt 就是規格書。新編輯——或新模型——撿起來就能用同一種方式跑同一套評分卡。組織知識活在 Prompt 裡,不在某個人腦子裡。

更難講的版本是:評分卡也會暴露出你原本不知道要看的事。我在深度評分標準裡加上「回應反方觀點」這條,是因為我注意到表現最好的文章都有「但這個做法在……情況下不對」的段落,最差的全沒有。如果評分標準要求,模型能做出這個分析。如果不要求,它就不會。

評分卡抓不到的東西

兩件事,都是真實的。

第一,具體論斷的事實準確性。 Claude 能檢查一個論斷是否有支撐,但它無法驗證底層數據本身是否正確。一篇文章可以在 E-E-A-T 上拿 24/25(有連結的來源、具名研究、最新數據),而來源本身可能是錯的或虛構的。我每篇文章仍然對 3-5 個最承重的數據做 60 秒的人工抽查。評分卡把稿子送到門口,人決定那扇門是不是真的。

第二,文章是否匹配讀者的真實問題。 一篇文章可能每個機械化指標都拿 78/100,卻仍然是錯的文章——回答了讀者沒問的問題,或推薦了讀者沒遇到的問題的工具。這是最難評分卡化的事,因為它需要知道讀者的具體處境。評分標準裡最接近的代理項是結構裡的「意圖匹配」:文章是否真的在回答 H1 問題。但這是句子級的檢查,不是讀者契合度的檢查。

評分卡是強制函數,不是質量系統。它強制一致性,不強制正確性或契合度。第一項用它,第二項保留人類在環節裡。

一條規則

如果要把整個框架壓成一條規則:帶子分和整改清單的 0-100 評分卡,是讓內容運營熬過自己成長最便宜的方式。 三個寫手、十個寫手、一百篇文章、兩千篇——評分標準跑起來都一樣。靠感覺的判斷跑不起來。

跑一遍你下一篇稿子。然後再跑一遍你這個月已經發的那十篇。數字本身沒整改清單有意思。