Qu'est-ce que Robots.txt ?
Robots.txt est un fichier texte placé à la racine d'un site web (exemple.com/robots.txt) qui fournit des instructions aux robots web sur les URLs auxquelles ils sont autorisés à accéder. Il suit le Protocole d'Exclusion des Robots (REP), introduit en 1994 et formalisé comme RFC 9309 en 2022. Le fichier utilisé des paires simples directive-valeur : User-agent identifié le robot, Disallow bloque des chemins spécifiques, Allow crée des exceptions, et Sitemap pointe vers les sitemaps XML.
Erreurs Courantes dans Robots.txt
Les erreurs les plus fréquentes dans robots.txt incluent : placer des directives Allow ou Disallow avant toute déclaration User-agent, utiliser des URLs de Sitemap relatives au lieu d'absolues, bloquer les fichiers CSS et JavaScript dont les moteurs de recherche ont besoin pour le rendu, ne pas avoir de bloc User-agent: * général, et utiliser un Disallow vide sans comprendre que cela signifie 'tout autoriser'. Chacune de ces erreurs peut dégrader silencieusement les performances de recherche de votre site.
Meilleures Pratiques Robots.txt pour le SEO
Commencez chaque robots.txt avec un bloc User-agent: * qui s'applique à tous les robots, puis ajoutez des blocs spécifiques pour les bots individuels nécessitant des règles différentes. Incluez toujours au moins une directive Sitemap pointant vers l'URL complète de votre sitemap XML. N'utilisez jamais robots.txt pour cacher du contenu sensible — il est publiquement accessible. Maintenez le fichier en dessous de 500 Ko. Testez les modifications avec le testeur robots.txt de Google Search Console avant de déployer.
Robots.txt vs Noindex vs Nofollow
Robots.txt, noindex et nofollow servent des objectifs différents et ne sont pas interchangeables. Robots.txt empêche les robots d'accéder complètement aux URLs. La balise meta noindex ou l'en-tête X-Robots-Tag indique aux robots de récupérer la page mais de ne pas l'ajouter à l'index. L'attribut nofollow indique aux robots de ne pas suivre des liens spécifiques. Une erreur critique est d'utiliser robots.txt pour bloquer des pages qui ont des balises noindex — si les robots ne peuvent pas accéder à la page, ils ne peuvent pas voir la directive noindex.





