SEO
Die gezielte Optimierung Ihrer Webseite ist darauf ausgerichtet Besucher auf Ihre eigene Webseite zu leiten, um
neue Kunden anzusprechen. Nachweislich steigert eine gute SEO-Strategie den Umsatz um ein Vielfaches.
robots.txt - Die Datei für die Crawler
Die robots.txt Datei dient dazu, bestimmte Verzeichnisse einer Webseite vor der Indexierung durch Suchmaschinen zu schützen. Die Datei liegt im
Hauptverzeichnis einer Domain und gibt Verzeichnisse an, deren Inhalt nicht ausgelesen werden darf. Es gibt vielfältig Gründe Verzeichnisse von
der Indexierung auszunehmen. Ein Grund ist das Problem des doppelten Inhalts. Mit Hilfe der robots.txt kann beispielsweise ein Verzeichnis, das
Druckversionen aller Seiten beinhaltet, ausgeschlossen werden.
Eine Garantie, dass Webrawler sich an die Vorgaben halten, gibt es nicht. Falls der Syntax korrekt ist, so befolgen zumindest die bekannten Suchmaschinen
die Vorgaben.
Syntax
Der Robots Exclusion Standard liest einen Webcrawler (Link) zuerst die Datei robots.txt im Hauptverzeichnis einer Domain. Eine robots.txt muss nach
diesem Standard erstellt werden, so das Webcrawler sie finden. Die Suchpfade sehen das zum Beispiel so aus:
http://beispiel579.eu/robots.txt
http://hilfe-seo.de/robots.txt
Die robots.txt ist nach einem bestimmten Schema aufgebaut. Zuerst gibt man an, für welchen Crawler die Anweisungen gelten und dann die einzelnen
Anweisungen.
# robots.txt für http://beispiel579.eu/robots.txt
User-agent: Googlebot
Disallow: /temp/
Disallow: /impressum.html
Disallow: /news.html
Mit User-agent: Googlebot bestimmt man, daß die Anweisungen nur für den Crawler Googlebot
gelten. Mit den einzelnen Disallow Einträgen bestimmt man Dateien und Verzeichnisse die nicht
indexiert werden sollen. Bei den Disallow Einträgen ist die Groß- und Kleinschreibung egal.
•
Alle Crawler ausschließen...
Dann benutzt man den sog. Wildchar *, also:
User-agent: *
Disallow: /temp/
•
Eine ganze Webseite von der Indexierung auszuschließen...
User-agent: *
Disallow: /
•
Eine ganze Webseite von der Indexierung freigeben...
User-agent: *
Disallow:
Sowohl der Meta-Tag als auch die robots.txt dienen zum Ausschluss von Webcrawlern. Priorität
hat keines. Ist die Seite durch mindestens eine der beiden Möglichkeiten gesperrt, so sollte die
Seite nicht gecrawlt werden.
© Christian Bindernagel | Impressum | Datenschutz
•
Google
•
Google-Bildersuche
•
Google-Adwords
•
Google-Adsense
•
Yahoo
•
MSN / bing
•
Teoma/Ask
•
Internet Archive
•
Exalead
User-Agent-Namen
> Googlebot
> Googlebot-Image
> Adsbot-Google
> MediaPartners-Google
> Slurp
> Msnbot / bingbot
> Teoma
> ia_archiver
> Exabot