Content

內容四維評分卡：E-E-A-T、深度、新鮮度、結構（Claude）

2026年3月9日

上個月我從「準備發布」資料夾裡抽出 47 篇稿子——都是我直覺覺得不錯的——然後跑了一遍 0-100 評分卡。19 篇沒過 75 分，6 篇甚至不到 60 分。47 篇我原本都要發。評分卡攔下了 19 篇，否則這些文章會慢慢拖垮整個網站，而我過去幾年一直把自己的直覺當成「夠好」。

這套評分卡就是四個維度，每個 0-25 分：E-E-A-T、深度、新鮮度、結構。分數計算方式固定，評分標準寫在 Prompt 裡，同一套標準可以批量審計現有文章（一次 10 篇）。這篇文章講清楚評分標準、Prompt、門檻邏輯，以及為什麼一套評分卡在人員流動的環境下比風格指南更靠譜。

四個維度

每個維度 0-25 分。任一維度低於 16 分，屬於結構性問題，不是改幾行字能修的——別小修，那一節重寫。總分只是參考資訊，關鍵在每個維度的下限。

1. E-E-A-T（經驗、專業、權威、可信）— 0-25 分

E-E-A-T 是大多數「AI SEO」文章最容易搞錯的地方。大家追 E-E-A-T 是去加作者簡介、加「醫學審核」免責聲明。這就偏了。Google 的質量系統看的是內容本身的證據，不是署名。E-E-A-T 四個字母拆開打分：

經驗（0-6 分） — 作者有沒有展示親身操作？用自己帳號的截圖、自己表格裡跑出來的數字、帶著真實檔案的工作流。「我跑了 3 次，2 天內」比「你可以在工作流中這樣做」得分高。讀者看不出作者到底做沒做過，分數 0-2。
專業（0-6 分） — 具體的技術深度，不是術語密度。寫出具體的 API 呼叫、真正的設定檔、實際踩到的錯誤訊息。「設定你的 DNS」是 0 分；「給 mail.example.com 加一條 A 記錄指向 192.0.2.45，TTL 300，再加一條 SPF 的 TXT 記錄」是 5-6 分。
權威（0-6 分） — 引用來源、命名工具、具名人物、附連結的研究。不是「據專家稱」——哪位專家？不是「研究表明」——哪一項研究？連結到 Google 官方文檔、Ahrefs 數據、LinkedIn 上某位具名人物的發言，5-6 分。連結到「多方資料」的，0-1 分。
可信（0-7 分） — 沒有無支撐的論斷、時效性內容有日期戳、不引用失效連結、對真正該保留不確定的部分有保留態度。可信這個維度給 7 分的權重是刻意的：可信一旦丟掉，修復成本最高。一個自信地寫錯的數字，會把整篇文章其他部分的權威感一起拖下水。

E-E-A-T 拿 22/25 的文章，有真實案例、真實數字、真實截圖、真實連結、有日期戳。拿 12/25 的文章，頂部放個作者簡介就完事了。

2. 深度（0-25 分）

深度不是字數。一篇 3000 字的文章可能只得 8 分。一篇 700 字的文章可能拿到 22 分。深度指的是有沒有越過表面的觀點。

三個打分信號：

數字與案例（0-10 分） — 不是「很多行銷人」，而是「63% 的 B2B SaaS 網站」。不是「效果不錯」，而是「在某 200 URL 的網站上，這個方法為分類頁每月新增 410 次點擊」。證據的單位是具體數字。全文 2 個以上：6-8 分。5 個以上，且含 1 個反直覺或對立觀點：9-10 分。
回應反方觀點（0-8 分） — 每篇文章都在推薦某種做法。高深度的文章會說明這個推薦不適用的場景、推薦的成本、替代方案。「用 Claude 做內容評分」是淺的；「用 Claude 做內容評分——但法律合規類文章跳過它，因為虛構引用的代價太高」才是深度。
機制而不只是結果（0-7 分） — 作者有沒有解釋為什麼有效，而不只是說它有效？「帶截圖的文章排名更高」是結果。「帶截圖的文章排名更高，是因為圖文並茂的結果頁點擊率（Click-Through Rate, CTR）是純文字的 1.6-2.1 倍，而停留時間長 18%——讀者先確認頁面符合意圖才會往下滾」才是機制。

深度是 AI 生成內容最穩定失守的維度。模型能寫一篇 1800 字、但跟搜尋結果前 5 名沒什麼區別的文章。評分：9/25。

3. 新鮮度（0-25 分）

新鮮度是編輯最容易跳過的維度，因為它要的不是寫作而是查驗。三個檢查項：

過去 18 個月內的引用（0-8 分） — 數據、研究、產品發布、API 變更。「據 2023 年 HubSpot 報告」對幾乎所有行銷話題都已經過時。18 個月是底線。還在引用 2024 年之前 SEO 數據的文章，現在是誤導性的——2024 年 3 月的核心更新改變了底層假設。
當前的產品介面（0-8 分） — 如果文章有儀表板、後台、設定頁的截圖，那個截圖是當前的版本嗎？Klaviyo 的活動建立器（campaign builder）自 2023 年起經歷了三次較大改版。Mailchimp 的自動化建立器改過兩次。2022 年的截圖，2/8 分。過去 6 個月內的截圖，7-8 分。
無失效連結的論斷（0-9 分） — 「Klaviyo 有 X 功能」這類論斷如果沒附上 Klaviyo 的文檔連結，就屬於失效連結的論斷。「Google 說 X」這類引用，如果鏈的是 2021 年的部落格文章而後續已更新，也算失效。修法不是刪掉論斷，是補上連結。引用到活的、最新來源的文章，8-9 分。寫「根據近期研究」的，0-2 分。

新鮮度單獨成一個維度是有原因的：它是發布後最難修的維度。一篇淺的文章可以加深。一篇過時的文章必須從頭重新研究，而大多數團隊永遠不會去做這件事。

4. 結構（0-25 分）

結構是最容易打分的維度，因為規則是機械化的。五個檢查項：

可掃讀的 H2（0-6 分） — 每個 H2 是一個論斷、一個問題、或一個子承諾——不是「前言」、「背景」、「其他考量」。「為什麼『有用內容』比你想的更難審計」是 6 分。「概述」是 0 分。
有用的子項目（0-5 分） — 壓縮資訊的子項目，本來需要 2-3 句話才能講清的東西。一個 14 項、每項只有一個詞的清單，0 分。一個 5 項、每項替代一個段落的清單，5 分。
可用的目錄（0-4 分） — 1200 字以上的文章，要在正文內（不是側邊欄）放目錄連結到各 H2。
沒有文字牆（0-5 分） — 沒有超過 5 句的段落。沒有連續 4 段都沒有小標題、表格、清單的章節。這個維度上 AI 容易以另一種方式失誤：滿屏 3 個一組的清單，完全沒有連貫的過渡。
答案前置（0-5 分） — 前 200 字就直接回答 H1 問題，或至少給出方向。不是「本文將探討」——「答案是 X，原因是這樣」。讀者（以及 Google 的抽取系統）都獎勵把答案先講出來的文章。

整個 Prompt

整套評分卡靠一段 Prompt 跑起來。我把稿子和評分標準一起貼進去，Claude 返回四個子分、總分、和整改清單。Prompt 原樣如下：

你是一個嚴格的上線前內容審核員。請按下列四個維度（每個 0-25 分）為以下文章打分，使用下方評分標準。每個維度給出子分、一句話引用具體行數的證據，若分數低於 18 分再附一句整改建議。

E-E-A-T（0-25 分）： 經驗——作者是否展示親身操作（截圖、自己工作流中的真實數字、具名流程）？專業——具體技術深度而非術語密度？權威——有連結的來源、命名工具、具名人物？可信——沒有無支撐的論斷、時效性內容有日期、該保留的地方有保留？

深度（0-25 分）： 數字與案例（具體而非模糊）？回應反方觀點？解釋了機制而不只是結果？

新鮮度（0-25 分）： 過去 18 個月內的引用？截圖中的產品介面是當前版本？沒有失效連結的論斷（每個「X 說 Y」是否連結到活著的來源）？

結構（0-25 分）： 可掃讀的 H2（論斷式而非標籤式）？有用的子項目（壓縮而非碎片）？超過 1200 字有可用目錄？沒有文字牆段落？前 200 字答案前置？

最後輸出：（1）每個維度子分，（2）總分 /100，（3）一份編號整改清單——每條一行，寫成可執行的修法（「給提及 Klaviyo UI 的句子加日期戳；該段落來自 2023 年」）。總分低於 75 分，文章不可發布。任一維度低於 16 分，無論總分多少，文章不可發布。

稿子： [貼上]

「整改清單」是把評分卡從一個裁決變成工作流的關鍵。「E-E-A-T：14/25」是個數字。「給提及 Klaviyo UI 的句子加日期戳；該段落來自 2023 年」是你 4 分鐘能修掉的東西。

門檻邏輯

75/100 總分是底線。16/25 子分是每個維度的底線。兩條都得過。

兩條門檻、不是一條的原因：一篇文章可以通過 E-E-A-T 22/25、深度 22/25、結構 22/25、新鮮度 12/25 拿到 78 總分。這個總分看起來不錯，但有一個結構性漏洞——通常是 E-E-A-T，通常是因為作者跳過了親身操作這個環節。12/25 的維度是文章的承重牆，下一次 Google 更新就是那場地震。任何一個塌了的維度都會把其他維度在重新閱讀時一起拉下來。

我用這套標準給最近 60 篇文章打分，結果是：

38 篇第一次就過 75/100 且任一維度不低於 18。直接發。
14 篇總分過 75 但有一個維度 16-17 分。重寫那一節，重新打分，發。
6 篇總分低於 70。砍掉，用更聚焦的 Brief 從頭來。
2 篇各項都過了，但在事實核查中發現一個錯誤數據。打回研究環節，之後再重新打分。

75 不是質量判斷，是「發還是改」的閘門。這個數字就只是個數字；它真正的作用是把「靠感覺」的判斷變成一個決策。我不再跟自己辯論這篇稿子行不行——評分卡告訴我行不行，整改清單告訴我修哪裡。

批量審計現有文章：10 篇一批

評分卡不只用於新稿。它也是分診存量內容最便宜的方式。我對 200 篇歷史文章用的工作流：

第一步：匯出 URL、標題、最後修改日期、每篇的前 200 字。 做成表格。前 200 字是評分卡找出問題文章所需的全部——被標記出來的文章再讀全文。

第二步：每批 10 篇跑評分卡。 把 10 篇貼進同一個 Claude 回合，要求每篇輸出維度分數和裁決（保留 / 更新 / 刪除）。前 200 字的樣本足以標記 80% 的低質量文章；剩下 20% 需要深入讀，但工作量已經縮減了 5 倍。

第三步：分三個桶：

保留不動 — 分數 ≥ 75、且任一維度不低於 18。什麼都不用做。
更新 — 分數 60-74，或任一維度 14-17 分。加 1-2 小時的更新（新的截圖、新的數據、新的連結、新的日期戳）。重新打分。
刪除 — 分數 < 60，或任一維度低於 14 分。更新成本超過流量價值。301 重定向到最相關的同類文章，然後放下。

在我審計過的典型 200 篇存量中，比例大致是 50% 保留、25% 更新、25% 刪除。25% 的刪除才是價值所在。你留下的每個不掙錢的頁面，都在向你試圖排名的每個頁面徵稅。整站質量信號是真實的，一個 200 篇的網站帶著 50 篇死頁，表現會差於一個 150 篇、死頁為零的網站。

1-2 小時的更新預算是大多數團隊會低估的部分。「更新」不是「加一段話」——它是一輪真正的工作：重新截圖 UI、重新查來源、重新打日期戳、重新確認範例還能跑通。20 分鐘就完成的更新通常是刷漆，不是修。

為什麼評分卡勝過靠感覺編輯

評分卡的可取之處不是準確性——Claude 會漏掉人類編輯能抓到的東西。可取之處是跨寫作者的穩定性和跨人員流動的存活能力。

我帶三個寫手、一個兼職編輯的時候，「看起來不錯」的判斷活在編輯腦子裡。她對「一篇好文章」有感覺。然後她離職了。下一個編輯有另一種感覺。第三個編輯沒感覺，靠前兩個編輯的批註學，而那些批註互相矛盾。發出去的東西質量跟當時是誰在審有關，跟文章本身無關。

評分卡用兩種方式解決這個問題。第一，它強迫每個審核者——無論人還是 AI——按同一個標準、在同一類證據上打分。「這文章不好」是感覺。「這文章 E-E-A-T 拿 12/25，因為沒有親身操作、唯一來源是 2021 年的部落格文章」是裁決。後者是 5 分鐘的修法。

第二，評分卡能熬過編輯的離開。Prompt 就是規格書。新編輯——或新模型——撿起來就能用同一種方式跑同一套評分卡。組織知識活在 Prompt 裡，不在某個人腦子裡。

更難講的版本是：評分卡也會暴露出你原本不知道要看的事。我在深度評分標準裡加上「回應反方觀點」這條，是因為我注意到表現最好的文章都有「但這個做法在……情況下不對」的段落，最差的全沒有。如果評分標準要求，模型能做出這個分析。如果不要求，它就不會。

評分卡抓不到的東西

兩件事，都是真實的。

第一，具體論斷的事實準確性。 Claude 能檢查一個論斷是否有支撐，但它無法驗證底層數據本身是否正確。一篇文章可以在 E-E-A-T 上拿 24/25（有連結的來源、具名研究、最新數據），而來源本身可能是錯的或虛構的。我每篇文章仍然對 3-5 個最承重的數據做 60 秒的人工抽查。評分卡把稿子送到門口，人決定那扇門是不是真的。

第二，文章是否匹配讀者的真實問題。 一篇文章可能每個機械化指標都拿 78/100，卻仍然是錯的文章——回答了讀者沒問的問題，或推薦了讀者沒遇到的問題的工具。這是最難評分卡化的事，因為它需要知道讀者的具體處境。評分標準裡最接近的代理項是結構裡的「意圖匹配」：文章是否真的在回答 H1 問題。但這是句子級的檢查，不是讀者契合度的檢查。

評分卡是強制函數，不是質量系統。它強制一致性，不強制正確性或契合度。第一項用它，第二項保留人類在環節裡。

一條規則

如果要把整個框架壓成一條規則：帶子分和整改清單的 0-100 評分卡，是讓內容運營熬過自己成長最便宜的方式。 三個寫手、十個寫手、一百篇文章、兩千篇——評分標準跑起來都一樣。靠感覺的判斷跑不起來。

跑一遍你下一篇稿子。然後再跑一遍你這個月已經發的那十篇。數字本身沒整改清單有意思。

Twitter LinkedIn Facebook Reddit Email

上線前品質閘門：用 Claude 的 12 條規則 0-100 評分卡 AI 内容刷新：一个周末用 Claude + GSC 更新 200 篇旧文 n8n + Claude：搭一个每周内容审计 Agent，把悄悄掉队的文章抓出来 20 条不发水互动的 LinkedIn 投票(Claude)