SEO Die gezielte Optimierung Ihrer Webseite ist darauf ausgerichtet Besucher auf Ihre eigene Webseite zu leiten, um neue Kunden anzusprechen. Nachweislich steigert eine gute SEO-Strategie den Umsatz um ein Vielfaches. robots.txt - Die Datei für die Crawler Die robots.txt Datei dient dazu, bestimmte Verzeichnisse einer Webseite vor der Indexierung durch Suchmaschinen zu schützen. Die Datei liegt im Hauptverzeichnis einer Domain und gibt Verzeichnisse an, deren Inhalt nicht ausgelesen werden darf. Es gibt vielfältig Gründe Verzeichnisse von der Indexierung auszunehmen. Ein Grund ist das Problem des doppelten Inhalts. Mit Hilfe der robots.txt kann beispielsweise ein Verzeichnis, das Druckversionen aller Seiten beinhaltet, ausgeschlossen werden. Eine Garantie, dass Webrawler sich an die Vorgaben halten, gibt es nicht. Falls der Syntax korrekt ist, so befolgen zumindest die bekannten Suchmaschinen die Vorgaben.   Syntax Der Robots Exclusion Standard liest einen Webcrawler (Link) zuerst die Datei robots.txt im Hauptverzeichnis einer Domain. Eine robots.txt muss nach diesem Standard erstellt werden, so das Webcrawler sie finden. Die Suchpfade sehen das zum Beispiel so aus: http://beispiel579.eu/robots.txt http://hilfe-seo.de/robots.txt Die robots.txt ist nach einem bestimmten Schema aufgebaut. Zuerst gibt man an, für welchen Crawler die Anweisungen gelten und dann die einzelnen Anweisungen. # robots.txt für http://beispiel579.eu/robots.txt User-agent: Googlebot Disallow: /temp/       Disallow: /impressum.html Disallow: /news.html   Mit User-agent: Googlebot bestimmt man, daß die Anweisungen nur für den Crawler Googlebot gelten. Mit den einzelnen Disallow Einträgen bestimmt man Dateien und Verzeichnisse die nicht  indexiert werden sollen. Bei den Disallow Einträgen ist die Groß- und Kleinschreibung egal. Alle Crawler ausschließen... Dann benutzt man den sog. Wildchar *, also: User-agent: * Disallow: /temp/ Eine ganze Webseite von der Indexierung auszuschließen... User-agent: * Disallow: / Eine ganze Webseite von der Indexierung freigeben... User-agent: * Disallow: Sowohl der Meta-Tag als auch die robots.txt dienen zum Ausschluss von Webcrawlern. Priorität hat keines. Ist die Seite durch mindestens eine der beiden Möglichkeiten gesperrt, so sollte die Seite nicht gecrawlt werden. © Christian Bindernagel | Impressum | Datenschutz Google Google-Bildersuche Google-Adwords Google-Adsense Yahoo MSN / bing Teoma/Ask Internet Archive Exalead User-Agent-Namen > Googlebot > Googlebot-Image > Adsbot-Google > MediaPartners-Google > Slurp > Msnbot / bingbot > Teoma > ia_archiver > Exabot