专题 C3:网络与安全
Robots.txt 测试清单
错误的 robots 规则足以让关键页面直接失去抓取资格。上线前的模拟检查,比事后追索引损失便宜得多。
发布前必须确认的抓取规则
先确认 locale 路径、工具页和专题页没有被全局 `Disallow` 误伤,再检查 sitemap 声明和 canonical 是否仍可抓取。
很多误封都发生在环境切换或框架升级之后,因为团队只看了 `robots.txt` 文件本身,没有去模拟真实 crawler 行为。
不要只看文件内容,要看抓取结果
- 对核心 landing page 和高价值工具页逐一做 crawler 模拟。
- 把 preview / staging / production 的 robots 差异纳入部署检查。
- 出现异常时同时检查 `X-Robots-Tag` 和缓存/CDN 层是否覆盖了响应头。
实用输入/输出示例
输入
User-agent: * Disallow: /
输出
crawler access: blocked indexing risk: critical