Die Datei robots.txt ist eine Textdatei auf dem Server einer Website, die Suchmaschinen-Crawlern (auch bekannt als Bots oder Spider) Anweisungen gibt, welche Teile der Website sie crawlen oder nicht crawlen sollen. Die Datei dient dazu, den Zugriff der Crawler auf bestimmte Bereiche der Website zu steuern, um sicherzustellen, dass nur relevante Seiten indexiert werden und Ressourcen effizient genutzt werden. Die robots.txt-Datei ist Teil des Robots Exclusion Protocol (REP), eines Standards, der von Suchmaschinen zur Erkennung und Beachtung dieser Anweisungen verwendet wird.
Wichtige Aspekte von robots.txt:
- Crawler-Steuerung: Webmaster können bestimmte User-Agents (Crawler bestimmter Suchmaschinen) erlauben oder verbieten, bestimmte Bereiche ihrer Website zu crawlen.
- Vermeidung von Überlastung: Durch das Ausschließen unwichtiger Seiten kann die Belastung des Servers verringert und das Crawling-Budget effizienter genutzt werden.
- Datenschutz und Sicherheit: Sensible Bereiche der Website, wie Admin-Bereiche oder persönliche Daten, können vor dem Crawling geschützt werden.
- Einfache Textdatei: Die robots.txt-Datei ist eine einfache Textdatei, die im Hauptverzeichnis der Website platziert wird.
- Keine Garantie für Nicht-Indexierung: Das Verwenden von robots.txt verhindert nicht unbedingt, dass eine Seite indexiert wird; es verhindert lediglich, dass sie von anständigen Crawlern gecrawlt wird. Für eine sichere Nicht-Indexierung sollten zusätzlich Meta-Tags wie „noindex“ verwendet werden.
Die Verwendung von robots.txt ist ein grundlegender Bestandteil der technischen SEO und hilft dabei, die Suchmaschinen-Crawler effektiv zu steuern und sicherzustellen, dass die wichtigen Teile einer Website richtig indexiert werden.