Was ist Robots.txt?
Robots.txt ist eine Klartextdatei im Stammverzeichnis einer Website (beispiel.de/robots.txt), die Webcrawlern Anweisungen gibt, auf welche URLs sie zugreifen dürfen. Sie folgt dem Robots Exclusion Protocol (REP), erstmals 1994 eingeführt und 2022 als RFC 9309 formalisiert. Die Datei verwendet einfache Direktive-Wert-Paare: User-agent identifiziert den Crawler, Disallow blockiert bestimmte Pfade, Allow erstellt Ausnahmen, und Sitemap verweist auf XML-Sitemaps.
Häufige Robots.txt-Fehler
Die häufigsten robots.txt-Fehler sind: Allow- oder Disallow-Direktiven vor jeder User-agent-Deklaration platzieren, relative statt absolute Sitemap-URLs verwenden, CSS- und JavaScript-Dateien blockieren die Suchmaschinen zum Rendern benötigen, keinen allgemeinen User-agent: *-Block haben, und ein leeres Disallow verwenden ohne zu verstehen, dass es 'alles erlauben' bedeutet. Jeder dieser Fehler kann die Suchleistung Ihrer Website stillschweigend verschlechtern.
Robots.txt Best Practices für SEO
Beginnen Sie jede robots.txt mit einem User-agent: *-Block, der für alle Crawler gilt, und fügen Sie dann spezifische Blöcke für einzelne Bots hinzu, die andere Regeln benötigen. Fügen Sie immer mindestens eine Sitemap-Direktive mit der vollständigen URL Ihrer XML-Sitemap ein. Verwenden Sie robots.txt niemals zum Verstecken sensibler Inhalte — die Datei ist öffentlich zugänglich. Halten Sie die Datei unter 500 KB. Testen Sie Änderungen mit dem robots.txt-Tester der Google Search Console vor dem Deployment.
Robots.txt vs Noindex vs Nofollow
Robots.txt, noindex und nofollow dienen unterschiedlichen Zwecken und sind nicht austauschbar. Robots.txt hindert Crawler daran, auf URLs vollständig zuzugreifen. Das noindex-Meta-Tag oder der X-Robots-Tag-Header weist Crawler an, die Seite abzurufen, aber nicht zum Suchindex hinzuzufügen. Das nofollow-Attribut weist Crawler an, bestimmten Links nicht zu folgen. Ein kritischer Fehler ist, robots.txt zum Blockieren von Seiten mit noindex-Tags zu verwenden — wenn Crawler die Seite nicht abrufen können, sehen sie die noindex-Direktive nicht.





