¿Qué es Robots.txt?
Robots.txt es un archivo de texto plano colocado en la raíz de un sitio web (ejemplo.com/robots.txt) que proporciona instrucciones a los rastreadores web sobre qué URLs pueden acceder. Sigue el Protocolo de Exclusión de Robots (REP), introducido por primera vez en 1994 y formalizado como RFC 9309 en 2022. El archivo usa pares simples de directiva-valor: User-agent identifica al rastreador, Disallow bloquea rutas específicas, Allow crea excepciones, y Sitemap apunta a sitemaps XML.
Errores Comunes en Robots.txt
Los errores más frecuentes en robots.txt incluyen: colocar directivas Allow o Disallow antes de cualquier declaración User-agent, usar URLs de Sitemap relativas en lugar de absolutas, bloquear archivos CSS y JavaScript que los motores de búsqueda necesitan para el renderizado, no tener un bloque User-agent: * general, y usar un Disallow vacío sin entender que significa 'permitir todo'. Cada uno de estos errores puede degradar silenciosamente el rendimiento de búsqueda de tu sitio.
Mejores Prácticas de Robots.txt para SEO
Comienza cada robots.txt con un bloque User-agent: * que apliqué a todos los rastreadores, luego agrega bloques específicos para bots individuales que necesiten reglas diferentes. Siempre incluye al menos una directiva Sitemap apuntando a la URL completa de tu sitemap XML. Nunca uses robots.txt para ocultar contenido sensible — es públicamente accesible y no proporciona seguridad. Mantén el archivo por debajo de 500 KB. Prueba los cambios con el tester de robots.txt de Google Search Console antes de desplegar.
Robots.txt vs Noindex vs Nofollow
Robots.txt, noindex y nofollow sirven para propósitos diferentes y no son intercambiables. Robots.txt bloquea a los rastreadores de acceder a URLs por completó. La etiqueta meta noindex o el encabezado X-Robots-Tag indica a los rastreadores que obtengan la página pero no la añadan al índice de búsqueda. El atributo nofollow indica a los rastreadores que no sigan enlaces específicos. Un error crítico es usar robots.txt para bloquear páginas que tienen etiquetas noindex — si los rastreadores no pueden acceder a la página, no pueden ver la directiva noindex.





