專題 C3:網路與安全
Robots.txt 測試檢查清單
錯誤的 robots 規則足以讓關鍵頁面直接失去抓取資格。上線前先模擬,比事後追索引損失便宜得多。
發布前必查的抓取規則
先確認 locale 路徑、工具頁與專題頁沒有被全域 `Disallow` 誤傷,再檢查 sitemap 與 canonical 是否仍可抓取。
很多誤封都發生在環境切換或框架升級之後,因為團隊只看檔案內容,沒有模擬真實 crawler 行為。
不要只看檔案,要看抓取結果
- 對核心 landing page 與高價值工具頁逐一做 crawler 模擬。
- 把 preview / staging / production 的 robots 差異納入部署檢查。
- 異常時同步檢查 `X-Robots-Tag` 與 CDN/快取層是否覆寫標頭。
實用輸入/輸出範例
輸入
User-agent: * Disallow: /
輸出
crawler access: blocked indexing risk: critical