Du selbst entscheidest, welche Bereiche du in die robots.txt Datei einfügst. Vorzugsweise werden dies Verzeichnisse oder Unterverzeichnisse sein. Es besteht sogar die Möglichkeit, die gesamte Website in das Verzeichnis aufzunehmen und Google hierdurch sozusagen den „Zutritt“ zu verweigern.
Der Vorteil einer solchen Datei ist, dass du auch auf die XML Sitemap deiner Website verweisen kannst. Hierdurch erleichterst du der Suchmaschine das Crawlen, was sich letztendlich positiv auf das Ranking deiner Website in den Suchergebnissen auswirken kann.
Übrigens bezeichnet die robots.txt Datei das Robots Exclusion Standard Protokol, das bereits im Jahr 1994 eingeführt wurde.
Was bewirkt die robots.txt Datei?
Ehe die Webcrawler der Suchmaschinen deine Website scannen, überprüfen sie, ob du an der dafür vorgesehenen Stelle die robots.txt Datei hinterlegt hast.
Ist dies der Fall, werden die darin genannten Bereiche nicht gecrawlt. Alle übrigen, nicht genannten Bereiche werden hingegen gecrawlt und entsprechend indexiert.
Damit die Suchmaschinen, die voll automatisch und eben nicht manuell arbeiten, diese Datei finden, musst du darauf achten, diese in exakt dieser Schreibweise „robots.txt“ zu benennen. Außerdem musst du die Datei in das Root-Verzeichnis deiner Domain einbinden.
Halten sich alle Suchmaschinen an die Anweisungen in dieser Datei?
Das müssen wir ganz klar verneinen. Während sich Google und Bing, aber auch Yahoo zuverlässig daran halten, gilt dies leider nicht für einige kleine Suchmaschinen. Diese können zwar auch auf die Datei zugreifen, was aber nicht bedeutet, dass sie deinen Anweisungen folgen.
Diese Suchmaschinen-Bots gibt es
Es gibt noch einige weitere Suchmaschinenbots, die jedoch von geringer Bedeutung sind.
Suchmaschine
- Google Mobile
- Google Bildersuche
- Bing
- Yahoo
- Alexa
Bot
- Googlebot
- Googlebot-Mobile
- Googlebot-Image
- msnbot / bingbot / adidxbot
- Yahoo! Slurp
- ia_archiver
- facebookexternalhit
Der Aufbau und das Erstellen der robots.txt Datei
Wie erwähnt, dient die robots.txt als Hilfe zur Indexierung durch die Suchmaschinenbots, weshalb diese die Datei zunächst durchsuchen, ehe eine Indexierung erfolgt.
Damit sich der jeweilige Bot „angesprochen“ fühlt, musst du diesen innerhalb der Datei namentlich benennen.
Jede einzelne Anweisung muss nach dem folgenden Schema erstellt werden:
User-agent: Botname
Disallow: /
Dies bedeutet, dass der jeweilige Bot die gesamte Seite nicht crawlen darf. Möchtest du das Crawlen einiger Bereiche verbieten, musst du die jeweilige URL angeben.
Für den Fall, dass der User-Agent die gesamte Website crawlen und indexieren darf, gibst du hinter „Disallow“ einfach nichts ein.
Wenn du für mehrere Webcrawler identische Einstellungen vornehmen möchtest, musst du nicht zigmal dieselben Datensätze anlegen. Es reicht dann aus, wenn du folgendermaßen verfährst:
User-agent: Botname1
User-agent: Botname2
User-agent: Botname3
Disallow: /
Wichtiger Hinweis zum Erstellen:
Ehe du die Datei in das Root-Verzeichnis hochlädst, überprüfe, ob alle Eingaben korrekt sind. Andernfalls werden diese vom Bot ignoriert. Du kannst dies einfach in der Google Search Console überprüfen, indem du dort die benötigten Daten einträgst.
Für das Erstellen der robots.txt Datei stehen dir verschiedene Möglichkeiten zur Verfügung, auf die wir nachfolgend eingehen möchten:
- Erstellen der Datensätze im Texteditor
Damit der Bot der jeweiligen Suchmaschine die Datei lesen kann, reicht es aus, diese in einem herkömmlichen Texteditor zu erstellen. - Erstellen über die Google Search Console
Arbeitest du mit den Google Webmaster Tools, kannst du die robots.txt problemlos über die Google Search Console anlegen. - Tools und Plugins
Des Weiteren stehen dir online zahlreiche kostenlose Tools und auch Plugins für dein CMS zur Verfügung, mit denen du die robots.txt kinderleicht und in wenigen Minuten erstellst.
Wie wirkt sich die robots.txt Datei auf die Suchmaschinenoptimierung aus?
Die robots.txt Datei dient dazu, bestimmte Seiten nicht in den Ergebnisseiten der Suchmaschinen zu indexieren. Folglich landen diese Seiten nicht im Ranking. Für Seiten wie beispielsweise die Datenschutzerklärung, das Impressum oder ein Kontaktformular kann dies durchaus sinnvoll sein. Diese müssen nicht zwangsweise indexiert werden, denn sie haben für den User in der Regel nur eine geringe bis gar keine Relevanz.
Alle anderen Seiten sollten jedoch unbedingt ein möglichst gutes Ranking in den SERPs (Search Engine Result Pages) erzielen, damit sie von Nutzern gefunden werden. Die Gestaltung deiner robots.txt kann daher einen großen Einfluss auf die Suchmaschinenoptimierung nehmen.
Eine direkte Auswirkung auf die Suchmaschinenoptimierung hat die Verwendung der robots.txt allerdings nicht.
Doppelter Content kann durch die robots.txt ausgeschlossen werden
Mit der robots.txt kannst du auch doppelten Content von der Indexierung ausschließen und hierdurch einer Abstrafung durch Google entgehen. Hierfür ist der Einsatz der robots.txt daher sinnvoll.
Einzelne Seiten per „noindex“ ausschließen
Wenn du allgemein nur wenige Seiten von der Indexierung ausschließen möchtest, musst du nicht zwangsweise den Aufwand mit der robots.txt betreiben. In diesem Fall kannst du einfach in die Einstellungen der jeweiligen Seite in deinem CMS gehen und diese auf „noindex“ setzen. Auch dies gibt dem jeweiligen Bot das Signal, dass der Inhalt nicht in die Suchergebnisseiten aufgenommen werden soll.
Wichtige Tipps zum Erstellen der robots.txt Datei
Wir möchten dir nachfolgend noch einige wichtige Tipps an die Hand geben, die du beim Erstellen der robots.txt Datei beachten solltest:
- Vermeide Syntax-Fehler
Syntax-Fehler können dazu beitragen, dass die Bots deine hinterlegten Anforderungen ignorieren. Du solltest daher Syntax-Fehler von vornherein ausschließen, indem du deine Datei dahingehend überprüfst. - Vermeide Schreibfehler
Schreibfehler führen ebenfalls zur Ignorierung deiner Anweisungen durch den Bot. Dies gilt schon, wenn du die Groß- und Kleinschreibung nicht beachtest. - Verwende einen „/“, ehe du die Disallow-Anweisung schreibst
Hierdurch weiß der User-Agent, was zu unternehmen ist. - Achte beim Erstellen der Regeln auf die Formatierung
Schreibe niemals zwei Regeln in eine Zeile, sondern fahre mit jeder weiteren Regel in einer neuen Zeile fort.
Welche Alternativen zur robots.txt Datei gibt es?
Wie erwähnt, kannst du, sofern du einzelne Seiten von der Indexierung ausschließen möchtest, einfach den Befehl „noindex“ anklicken, den du in deinem CMS findest.
Auch die Platzierung eines Meta-Tags ist möglich. Diesen fügst du in denBereich der jeweiligen Seite ein.
Diese Variante wird jedoch nur für einzelne Seiten empfohlen. Komplette Verzeichnisse oder Unterverzeichnisse kannst du hierdurch nicht ausschließen.
Zusammenfassung zur robots.txt Datei
Mithilfe der robots.txt Datei, die du ins Root-Verzeichnis deiner Website hochlädst, kannst du Suchmaschinenbots signalisieren, dass bestimmte Bereiche deiner Website nicht in die Suchergebnisse aufgenommen werden sollen. Hierbei kann es sich um einzelne Dateien, Verzeichnisse, Unterverzeichnisse oder um die gesamte Website handeln.
Als Alternative zur robots.txt kannst du auch einen entsprechenden Meta-Tag imBereich der jeweiligen Seite platzieren, um die Indexierung auszuschließen. Dies macht jedoch nur Sinn, wenn du wenige Seiten ausschließen möchtest.
Die robots.txt Datei garantiert dir allerdings nicht, dass sich sämtliche Bots an deine Anweisungen halten. Es gibt auch User-Agents – vor allem von kleinen Suchmaschinen – die auf die Datei zwar zugreifen können, diese aber ignorieren.
Damit die Anweisungen überhaupt beim Crawling umgesetzt werden können, musst du darauf achten, dass sämtliche Datensätze fehlerfrei sind.