Was ist eine robots.txt Datei?
Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website, die Suchmaschinen-Crawlern wie Googlebot, Bingbot oder anderen Bots Anweisungen gibt. Sie ist Teil des Robots Exclusion Protocol und wird von allen seriosen Suchmaschinen respektiert.
Mit der robots.txt koennen Sie bestimmte Bereiche Ihrer Website vom Crawling ausschliessen, das Crawl-Budget optimieren und den Speicherort Ihrer XML-Sitemap angeben. Die Datei muss unter der URL example.com/robots.txt erreichbar sein.
Wichtige robots.txt Direktiven
| Eigenschaft | Wert |
|---|---|
| User-agent | Bestimmt, fuer welchen Crawler die Regeln gelten |
| Disallow | Verbietet das Crawlen eines Pfades |
| Allow | Erlaubt explizit das Crawlen (ueberschreibt Disallow) |
| Sitemap | Gibt den Speicherort der XML-Sitemap an |
| Crawl-delay | Wartezeit zwischen Anfragen (nicht von Google unterstuetzt) |