Cluster C3 : Réseau et sécurité
Checklist de test robots.txt
Une règle robots incorrecte peut bloquer immédiatement l'exploration de pages stratégiques. Les vérifications avant mise en ligne coûtent bien moins qu'une perte d'indexation.
Ce qu'il faut contrôler avant release
Vérifier d'abord que les chemins de langue, pages outils et contenus piliers ne sont pas touchés par un `Disallow` global, puis contrôler sitemap et canonical.
Beaucoup d'erreurs apparaissent lors d'un changement d'environnement ou d'un upgrade framework et ne se voient pas à la simple lecture du fichier.
Tester le résultat de crawl, pas seulement le fichier
- Simuler le crawl sur les landing pages et routes à forte valeur.
- Comparer preview, staging et production dans le pipeline de déploiement.
- En cas d'anomalie, vérifier aussi `X-Robots-Tag` et les réécritures de headers par CDN/cache.
Exemple pratique entrée/sortie
Entrée
User-agent: * Disallow: /
Sortie
crawler access: blocked indexing risk: critical