Robots / Robots.txt |
Robots / Robots.txt
Manchmal ist es sinnvoll, bestimmte Seiten oder Bereiche einer Seite vor der Indexierung zu schützen. Dies kann Zum Beispiel der Fall sein, wenn es sich um Seiten handelt, die sich täglich ändern oder an denen noch gearbeitet wird. es lassen sich aber auch Programmdateien, Bilder und ähnliches vor Robots schützen.
Prüfen Sie HIER ob Ihre bereits vorhandene Datei robots.txt dem Syntax entspricht.
Dateipfad und Erstellungsmethode
Der Name der Datei ist vorgeschrieben und lautet robots.txt ( Bitte die Kleinschreibweise beachten ). Bei der Erstellung ist zu beachten welchen Editor man benutzt. Es sollte nur ein reiner Texteditor genutzt werden. ( unter Windows z.b Wordpad oder Notepad ). Beim hochladen auf den Server via FTP sollten Sie sicherstellen, daß die Datei im ASCII Modus übertragen wird. Die Datei muss in das Rootverzeichnis (Stammverzeichnis) geladen werden. Der Pfad zur Datei sollte dann wie folgt aussehen: http://www.ihre-domain.de/robots.txt . Der name der date robots.txt darf nur aus Kleinbuchstaben bestehen!
Der Aufbau
Der Aufbau folgt einem bestimmten Schema. Zuerst wird angegeben für welchen Crawler die Anweisungen gelten und danach die Anweisungen.
Geben Sie immer den kompletten Pfad ohne Domainnamen zur Datei an (alles was Rot dargestellt ist http://www.domain.de/ordner1/unterordner/datei.html ! Soll ein Unterordner in einem Ordner gesperrt werden so ist der Pfad wie folgt anzugeben: /ordner/unterordner_sperren/ . Die Schreibweise (groß/klein) ist bei Ordnernamen unwichtig. Bei Url's jedoch sollte auf die Schreibweise (groß/klein) geachtet werden.
Wichtige Hinweise
* Der Name der Datei Robots darf nur aus Kleinbuchstaben bestehen ( robots.txt )
* Groß/Kleinschreibweise bei Ordnernamen ist nicht wichtig ( /Bilder/ , /bilder/ , /BILDER/ )
* Bei Angabe von Url's muss die Schreibweise identisch mit dem Namen der Datei sein
* Alles vor dem ein # steht, gilt als Kommentar und wird von den Robots / Crawlern ignoriert
* Zwichen dem "User-Agent:" und der Anweisung "Disallow:" oder "Allow:" darf keine Leerzeile bestehen
* Hinter "User-Agent:" - "Disallow:" oder "Allow:" kommt ein Leerzeichen und dann der zu sperrende Ordner / Datei
Hier können Sie eine fertige robots.txt Datei herrunterladen.
download
Syntax Übersicht
Besispiel:
* User-Agent: Der Suchroboter, auf den die folgende Regel zutrifft.* Disallow: leget fest welche Verzeichnisse und/oder Dateien Sie sperren wollen.
* Allow: legt fest welche Verzeichnisse und/oder Dateien Sie zur Indexierung zulassen wollen.
# legt einen bestimmten Crawler / Robot fest
User-agent: WebBandit
# Spricht alle Crawler / Robots an
User-agent: *
### Anweisungen ### Groß-/Kleinschreibung ist hier unwichtig (/Bilder/, /bilder/, BILDER/) ###
# Alles indexieren
Disallow:
# nichts indexieren
Disallow: /
# Bestimmten Ordner nicht indexieren
Disallow: /Bilder/
# aber diese eine Datei doch für robots zulassen
Allow: /Bilder/bilderverzeichnis.html
# Bestimmte Datei o. Ordner nicht indexieren welche beginnen mit: index (ohne slash (/) am Ende)
Disallow: /index
# Bestimmte Seite (URL) nicht indexieren ( bei Url's ist auf groß-kleinschreibweise zu achten )
Disallow: /bestimmte_seite.html
# Seiten mit einer bestimmten Dateiendung nicht indexieren ( hier alle Seiten mit der Endung php )
Disallow: /*.php$
# Dynamische Seiten nicht indexieren (z.B. http://www.domain.de/redirect.php?seite=main )
Disallow: /redirect.php?*$
Bestimmtem Crawler Indexierung bestimmter Ordner untersagen
Dem Crawler WebBandit mitteilen das der Ordner temp und Bilder nicht indexiert werden sollen
Besispiel:
User-agent: WebBandit ⇐ Crawler für welchen die Anweisungen bestimmt sindDisallow: /temp/ ⇐ Anweisung ->Ordner "temp" nicht indexieren
Disallow: /dateien/bilder/ ⇐ Anweisung ->Ordner "bilder" im Ordner dateien nicht indexieren
Mehrere Bestimmten Crawlern Indexierung bestimmter Ordner untersagen
Dem Crawler WebZip, WebStripper, etc. mitteilen das der Ordner Images und Bilder nicht indexiert werden sollen
Besispiel:
User-agent: WebZip/4.0User-agent: WebStripper
User-agent: WebSauger
User-agent: TheNomad
Disallow: /Images/
Disallow: /Bilder/
Bestimmtem Crawler Indexierung bestimmter Ordner untersagen
Dem Crawler WebBandit mitteilen das der Ordner temp und Bilder nicht indexiert werden sollen
Besispiel:
User-agent: WebBanditDisallow: /temp/
Disallow: /Bilder/
Bestimmtem Crawler gesamte Indexierung untersagen
Dem Crawler WebBandit mitteilen das die ganze Seite nicht indexiert werden sollen
Besispiel:
User-agent: WebBanditDisallow: /
Bestimmtem Crawler gesamte Indexierung erlauben
Dem Crawler WebBandit mitteilen das die ganze Seite indexiert werden sollen
Besispiel:
User-agent: WebBanditDisallow:
Bestimmtem Crawler Indexierung untersagen wenn Datei anfängt mit ..
Dem Crawler WebBandit mitteilen alle Url's welche mit index anfangen (/index.html, /indexierung.html, /indexsearch-verzeichnis/liste.html, /index/, /indexsuche/) nicht zu indexieren.
Besispiel:
User-agent: WebBanditDisallow: /index
Allen Crawlern Indexierung untersagen wenn Datei anfängt mit ..
Allen Crawlern mitteilen alle Url's welche mit index anfangen (/index.html, /indexierung.html, /indexsearch-verzeichnis/liste.html, /index/, /indexsuche/) nicht zu indexieren.
Besispiel:
User-agent: *Disallow: /index
Allen Crawlern Indexierung der kompletten Website untersagen
Allen Crawlern mitteilen die gesamte Webseite nicht zu indexieren.
Besispiel:
User-agent: *Disallow: /
Allen Crawlern Indexierung der kompletten Website erlauben
Allen Crawlern erlauben die gesamte Webseite zu indexieren.
Besispiel:
User-agent: *Disallow:
Beispiel für eine robots.txt Datei
Besispiel:
# Robots.txt für meine Website www.domain.deUser-agent: * ⇐ Alle Crawler ansprechen
Disallow: ⇐ Erlaubt alles zu Indexieren
## Nun bestimmte Anweisungen für bestimmte Crawler festlegen
User-agent: WebBandit ⇐ Crawler für welchen die Anweisungen bestimmt sind
Disallow: /temp/ ⇐ Anweisung ->Ordner "temp" nicht indexieren
Disallow: /dateien/bilder/ ⇐ Anweisung ->Ordner "bilder" im Ordner dateien nicht indexieren
User-agent: WebZip/4.0 ⇐\
User-agent: WebStripper ⇐ Mehrere Crawler für bestimmte Anweisungen festlegen
User-agent: WebSauger ⇐/
Disallow: /Images/ ⇐ Ordner Images für diese 3 Crawler sperren
Disallow: /Bilder/ ⇐ Ordner Bilder für diese 3 Crawler sperren












