Was ist die robots.txt?

Sie sind hier:
Geschätzte Lesezeit: 2 min

Robots sind heutzutage überall im Internet zu finden – sie crawlen herum und suchen nach Inhalten, die sie indizieren können. Die robots.txt-Datei einer Website teilt den Such-Crawlern mit, wie sich diese Bots auf der Website verhalten sollen: welche Seiten sie nicht laden oder in ihrem Index anzeigen sollen; ob sie durch den Bilder-Ordner crawlen sollen oder nicht. Dieses kleine Textdokument kann dabei helfen, Ihre Site schneller zu machen, indem es zu viele Anfragen von verschiedenen Robots vermeidet.

Eine robots.txt-Datei ist ein entscheidender erster Schritt zur Website-Optimierung, da sie diktiert, welche Seiten von Suchmaschinen-Crawlern gecrawlt und in den SERPs (Suchmaschinenergebnisseite) indiziert werden. Sie befindet sich im Root-Verzeichnis Ihrer Website. Wenn Sie Teile Ihrer Website ausblenden oder blockieren möchten, so können Sie entsprechende Crawling-Anweisungen in die robots.txt Datei eintragen.

Die robots.txt-Datei teilt also Suchmaschinen-Crawlern mit, auf welche URLs der Crawler auf Ihrer Website zugreifen kann. Laut Google Helpcenter wird sie verwendet, um die Anzahl der Anfragen von Robotern an Websites zu begrenzen sowie die Serverlast zu verringern –  nicht um Seiten aus dem Indexierungssystem von Google herauszuhalten. Um zu verhindern, dass Seiten von Google indiziert werden, verwenden Sie noindex oder schützen Sie sie mit einem Passwort. So werden Sie für Besucher blockiert, sind aber immer noch in den Indizes von Bing/Yahoo! und anderen Suchmaschinen verfügbar. Gleichzeitig verhindern Sie, dass unerwünschte Bots durch sensible Informationen crawlen.

Im Allgemeinen sollte der Inhalt der robots.txt-Datei als Empfehlung für Such-Crawler angesehen werden, die Regeln darüber definiert, welche Webseiten nicht gecrawlt werden können, wenn Websites besucht werden, auf denen solche Dateien vorhanden sind (z. B. aus Datenschutzgründen).

Wofür genau wird die robots.txt genutzt?

Suchmaschinen wie Google und Yahoo! aktualisieren ständig ihre Algorithmen, um das Crawling zu erleichtern und Ressourcen zu schonen. Daher weisen die Suchmaschinenbetreiber dem Crawling von Websites nur ein bestimmtes Crawl-Budget. Das heißt, es werden nicht alle Unterseiten einer Website auf einmal gecrawlt, sondern immer nur ein bestimmter Teil davon. Für Webmaster ist es daher wichtig, dass die Bots der Suchmaschinen nach Möglichkeit nur zu qualitativ hochwertigen Inhalten auf Ihrer Website geleitet werden. Es ist kontraproduktiv, wenn sich Crawler mühsam und zeitfressend durch wenig zusammenhängende Inhalte arbeiten müssen oder das Crawling mit qualitativ minderwertigem Content verschwenden.

Daher sollten Webmaster darauf achten, eine Sitemap zu erstellen, die es den Suchrobotern ermöglicht, Inhalte schnell zu finden, ohne Crawl-Budget zu verschwenden. Doch reicht das Erstellen einer Sitemap häufig nicht aus. Hier kommt die robots.txt zum Einsatz. Mit ihrer Hilfe kann man Crawlern helfen, die aufgewendete Zeit zum Durchforsten der Inhalte einer Website zu reduzieren.

Welche Seiten sollte man mit der Robots.txt ausschließen?

Je größer die Website, desto wichtiger ist ein kluger Einsatz der robots.txt. So können irrelevante Verzeichnisse, Duplicate Content oder persönliche Daten vom Crawling ausgeschlossen werden.

a) Persönliche Daten

Persönliche Daten wie Namen, Telefonnummern, Kreditkartendaten, Profilseiten sind wichtig und sollten mit Passwörtern geschützt werden. Damit Daten sicher bleiben, müssen Sie sie verschlüsseln, damit nur diejenigen, die Zugriff benötigen, den Inhalt einer Datei oder eines Dokuments sehen können.

b) Suchanfragen

Um einem Besucher das bestmögliche Erlebnis zu bieten, entfernen Unternehmen in der Regel Seiten, die angezeigt werden, nachdem ein Website-Besucher eine Anfrage in das Suchfeld der Website eingegeben hat. Das Gleiche gilt für die Sortierung von Produkten nach Preis und anderen Kriterien, da dies aufgrund schlechter Sichtbarkeit oder geringer Besucherzahlen möglicherweise keine qualitativ hochwertigen Ergebnisse liefert.

Mit einer Vielzahl von Filteroptionen kann es leicht passieren, dass Ihre Website schnell mit einer riesigen Anzahl von URLs überflutet wird. Insbesondere Produktfilter liefern eine hohe Zahl an Suchergebnissen. Hier sollten Sie streng darauf achten, dass diese Ergebnisse nicht von Suchmaschinen gecrawlt werden.

c) Duplicate Content

Google empfiehlt, Websites mit unbedeutenden URL-Variationen und/oder Parametern mittels einer robots.txt-Datei vom Crawling auszuschließen, da dies zu ineffizienten Site-Crawls führen kann, die möglicherweise nicht die bestmöglichen Ergebnisse für Webnutzer im Allgemeinen liefern.

Die Robots.txt bei Google einreichen

Nachdem Sie nun Ihre Robots.txt-Datei neu erstellt und getestet haben, empfehlen wir, sie auch Google bekannt zu machen. Normalerweise findet Google sie schnell, da der Verankerungspfad vordefiniert ist. Dazu greifen Sie einfach auf die Google Search Console zu, wo Sie Ihren robots-Text bearbeiten und diese Änderungen an Google senden können.

Aufrufe: 10