Robots / Robots.txt

Robots / Robots.txt

Manchmal ist es sinnvoll, bestimmte Seiten oder Bereiche einer Seite vor der Indexierung zu schützen. Dies kann Zum Beispiel der Fall sein, wenn es sich um Seiten handelt, die sich täglich ändern oder an denen noch gearbeitet wird. es lassen sich aber auch Programmdateien, Bilder und ähnliches vor Robots schützen.

Prüfen Sie HIER ob Ihre bereits vorhandene Datei robots.txt dem Syntax entspricht.

Dateipfad und Erstellungsmethode

Der Name der Datei ist vorgeschrieben und lautet robots.txt ( Bitte die Kleinschreibweise beachten ). Bei der Erstellung ist zu beachten welchen Editor man benutzt. Es sollte nur ein reiner Texteditor genutzt werden. ( unter Windows z.b Wordpad oder Notepad ). Beim hochladen auf den Server via FTP sollten Sie sicherstellen, daß die Datei im ASCII Modus übertragen wird. Die Datei muss in das Rootverzeichnis (Stammverzeichnis) geladen werden. Der Pfad zur Datei sollte dann wie folgt aussehen: http://www.ihre-domain.de/robots.txt . Der name der date robots.txt darf nur aus Kleinbuchstaben bestehen!

Der Aufbau

Der Aufbau folgt einem bestimmten Schema. Zuerst wird angegeben für welchen Crawler die Anweisungen gelten und danach die Anweisungen.

Geben Sie immer den kompletten Pfad ohne Domainnamen zur Datei an (alles was Rot dargestellt ist http://www.domain.de/ordner1/unterordner/datei.html ! Soll ein Unterordner in einem Ordner gesperrt werden so ist der Pfad wie folgt anzugeben: /ordner/unterordner_sperren/ . Die Schreibweise (groß/klein) ist bei Ordnernamen unwichtig. Bei Url's jedoch sollte auf die Schreibweise (groß/klein) geachtet werden.

Wichtige Hinweise

* Der Name der Datei Robots darf nur aus Kleinbuchstaben bestehen ( robots.txt )
* Groß/Kleinschreibweise bei Ordnernamen ist nicht wichtig ( /Bilder/ , /bilder/ , /BILDER/ )
* Bei Angabe von Url's muss die Schreibweise identisch mit dem Namen der Datei sein
* Alles vor dem ein # steht, gilt als Kommentar und wird von den Robots / Crawlern ignoriert
* Zwichen dem "User-Agent:" und der Anweisung "Disallow:" oder "Allow:" darf keine Leerzeile bestehen
* Hinter "User-Agent:" - "Disallow:" oder "Allow:" kommt ein Leerzeichen und dann der zu sperrende Ordner / Datei

Hier können Sie eine fertige robots.txt Datei herrunterladen.    download download

seo Syntax Übersicht

Besispiel:
* User-Agent: Der Suchroboter, auf den die folgende Regel zutrifft.
* Disallow: leget fest welche Verzeichnisse und/oder Dateien Sie sperren wollen.
* Allow: legt fest welche Verzeichnisse und/oder Dateien Sie zur Indexierung zulassen wollen.

# legt einen bestimmten Crawler / Robot fest
User-agent: WebBandit

# Spricht alle Crawler / Robots an
User-agent: *

### Anweisungen ### Groß-/Kleinschreibung ist hier unwichtig (/Bilder/, /bilder/, BILDER/) ###

# Alles indexieren
Disallow:

# nichts indexieren
Disallow: /

# Bestimmten Ordner nicht indexieren
Disallow: /Bilder/
# aber diese eine Datei doch für robots zulassen
Allow: /Bilder/bilderverzeichnis.html

# Bestimmte Datei o. Ordner nicht indexieren welche beginnen mit: index (ohne slash (/) am Ende)
Disallow: /index

# Bestimmte Seite (URL) nicht indexieren ( bei Url's ist auf groß-kleinschreibweise zu achten )
Disallow: /bestimmte_seite.html

# Seiten mit einer bestimmten Dateiendung nicht indexieren ( hier alle Seiten mit der Endung php )
Disallow: /*.php$

# Dynamische Seiten nicht indexieren (z.B. http://www.domain.de/redirect.php?seite=main )
Disallow: /redirect.php?*$


seo Bestimmtem Crawler Indexierung bestimmter Ordner untersagen

Dem Crawler WebBandit mitteilen das der Ordner temp und Bilder nicht indexiert werden sollen

Besispiel:
User-agent: WebBandit     ⇐ Crawler für welchen die Anweisungen bestimmt sind
Disallow: /temp/              ⇐ Anweisung ->Ordner "temp" nicht indexieren
Disallow: /dateien/bilder/ ⇐ Anweisung ->Ordner "bilder" im Ordner dateien nicht indexieren

seo Mehrere Bestimmten Crawlern Indexierung bestimmter Ordner untersagen

Dem Crawler WebZip, WebStripper, etc. mitteilen das der Ordner Images und Bilder nicht indexiert werden sollen

Besispiel:
User-agent: WebZip/4.0
User-agent: WebStripper
User-agent: WebSauger
User-agent: TheNomad
Disallow: /Images/
Disallow: /Bilder/

seo Bestimmtem Crawler Indexierung bestimmter Ordner untersagen

Dem Crawler WebBandit mitteilen das der Ordner temp und Bilder nicht indexiert werden sollen

Besispiel:
User-agent: WebBandit
Disallow: /temp/
Disallow: /Bilder/

seo Bestimmtem Crawler gesamte Indexierung untersagen

Dem Crawler WebBandit mitteilen das die ganze Seite nicht indexiert werden sollen

Besispiel:
User-agent: WebBandit
Disallow: /

seo Bestimmtem Crawler gesamte Indexierung erlauben

Dem Crawler WebBandit mitteilen das die ganze Seite indexiert werden sollen

Besispiel:
User-agent: WebBandit
Disallow:

seo Bestimmtem Crawler Indexierung untersagen wenn Datei anfängt mit ..

Dem Crawler WebBandit mitteilen alle Url's welche mit index anfangen (/index.html, /indexierung.html, /indexsearch-verzeichnis/liste.html, /index/, /indexsuche/) nicht zu indexieren.

Besispiel:
User-agent: WebBandit
Disallow: /index

seo Allen Crawlern Indexierung untersagen wenn Datei anfängt mit ..

Allen Crawlern mitteilen alle Url's welche mit index anfangen (/index.html, /indexierung.html, /indexsearch-verzeichnis/liste.html, /index/, /indexsuche/) nicht zu indexieren.

Besispiel:
User-agent: *
Disallow: /index

seo Allen Crawlern Indexierung der kompletten Website untersagen

Allen Crawlern mitteilen die gesamte Webseite nicht zu indexieren.

Besispiel:
User-agent: *
Disallow: /

seo Allen Crawlern Indexierung der kompletten Website erlauben

Allen Crawlern erlauben die gesamte Webseite zu indexieren.

Besispiel:
User-agent: *
Disallow:


seo Beispiel für eine robots.txt Datei

Besispiel:
# Robots.txt für meine Website www.domain.de
User-agent: *           ⇐ Alle Crawler ansprechen
Disallow:                  ⇐ Erlaubt alles zu Indexieren


## Nun bestimmte Anweisungen für bestimmte Crawler festlegen

User-agent: WebBandit     ⇐ Crawler für welchen die Anweisungen bestimmt sind
Disallow: /temp/              ⇐ Anweisung ->Ordner "temp" nicht indexieren
Disallow: /dateien/bilder/ ⇐ Anweisung ->Ordner "bilder" im Ordner dateien nicht indexieren

User-agent: WebZip/4.0      ⇐\
User-agent: WebStripper     ⇐ Mehrere Crawler für bestimmte Anweisungen festlegen
User-agent: WebSauger       ⇐/
Disallow: /Images/              ⇐ Ordner Images für diese 3 Crawler sperren
Disallow: /Bilder/                ⇐ Ordner Bilder für diese 3 Crawler sperren


bb



Mr.Wong Webnews Linkarena Bookmark with Linksilo
Favoriten Favit Yigg Bookmark with Facebook
Digg Furl Technorati Bookmark with Delicious

pn
Cool PHP Scripts