3

robots.txt Anleitung

Die Datei robots.txt wird im html-Verzeichnis des Webservers an oberster Stelle abgelegt und dient dazu zu Regeln, was die Bots der Suchmaschinen sehen und somit indexieren dürfen.

Sie ist folgendermaßen aufgebaut:
Zunächst gibt man mit der Zeile

User-agent: *

an, für welchen Suchbot die folgenden Regeln gelten sollen. „*“ bedeutet, das alle Bots betroffen sind. Wichtige Bots von Google sind: Mediapartners-Google, Googlebot und Googlebot-Image.
Danach listet man beliebig viele Verbote (Disallows) und Erlaubnisse (Allows). Unterschieden wird dabei auf Groß- und Kleinschreibung! Ohne Disallow-Eintrag ist standardmäßig alles erlaubt.

Disallow: /index/
Disallow: /index
Disallow: /index*/

Zeile 1 blockiert alle Links die ein Verzeichnis „index“ beinhalten.
Zeile 2 blockiert alle Links, bei denen eine Datei/ Verzeichnis mit „index“ beginnen. Also beispielsweise auch „index.html„.
Zeile 3 blockiert nur die Links, die ein Unterverzeichnis beginnend mit „index“ in sich haben.

Dazu muss man anmerken, dass nicht alle Suchbots wildcards wie „*“ (steht für irgendeine Zeichenkette) oder „$“ (steht für String-Ende) verarbeiten können. Die Googlebots erkennen diese!

Zusätzlich kann man den Suchmaschinen noch mitteilen, welche XML-Sitemap indexiert werden soll.
Da die einzufügende Zeile unabhängig von den „User-agent:“- Zeilen ist, kann man an beliebiger Stelle

Sitemap: http://example.com/sitemap.xml

mit eigener URL einfügen.

Hat man eine robots.txt erstellt, kann man auf diversen Seiten im Internet die Syntax überprüfen lassen. Google Webmaster Tools analysiert diese auch.

Statt einer robots.txt-Datei kann man den selben Effekt auch mit den html– meta-Tags noindex, follow erreichen, welcher auf jeder Seite im Quellcode sein muss. Für WordPress gibt es SEO Plugins, die dies unterstützen. Ich selber nutze das WordPress SEO Plugin. Damit lassen sich einfach alle Tag-, Category-, Author- und Archive-Seiten ausschließén. Außerdem lässt sich damit auch automatisch eine sitemap.xml generieren.

Achtung: Die robots.txt schützt nicht vor dem Zugriff auf die Daten! Dazu kann man die .htaccess benutzen.

3 Kommentare

  1. Hallo. Die Begriffe verwirren mich ein wenig. Befindet sich das Root-Verzeichnis innerhalb des Ordners WordPress. Oder eine Ebene oberhalb? In meinem Server ganz oben ist ein unbenannter gelber Ordner. Darunter ist der Ordner WordPress. Wo gehört nun die robots.txt rein? Ganz oben in den unbenannten? Oder in den Ordner WordPress? Es wäre schön, wenn Sie mir antworten könnten. Vielen Dank!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert