Indexierung steuern
Die Aufnahme neuer Seiten in den Index erfolgt bei allen relevanten Suchmaschinen durch das Verfolgen von Links. Damit eine Seite aufgenommen wird, reicht es aus, sie von einer anderen, bereits aufgenommenen Webseite aus zu verlinken. Zusätzlich ist bei einigen Suchmaschinen eine Anmeldung von Webseiten möglich.
Darüber hinaus gibt es Möglichkeiten zur gezielten Steuerung der Indexierung.
Robots Exclusion Protocol
Mit Hilfe des Robots Exclusion Protokolls lässt sich das Indexierungsverhalten von Suchmaschinen gezielt steuern. Bevor eine Webseite von einem Suchmaschinencrawler abgerufen wird, prüft dieser das Vorhandensein einer Datei mit dem Namen robots.txt im Root-Verzeichnis des Servers. Mit Hilfe dieser Datei haben Webseitenbetreiber die Möglichkeit, einzelne Dateien oder ganze Dateien von der Indexierung auszuschließen. Diese Regeln können wahlweise für alle oder nur für bestimmte Crawler gelten.
Schließt man bereits indexierte Unterseiten mit Hilfe der robots.txt-Datei aus, werden diese i. d. R. nach dem nächsten Crawl-Vorgang aus dem Index entfernt. In dringenden Fällen bieten einige Suchmaschinenbetreiber die Möglichkeit, die Entfernung per Email oder über ein Webformular zu beantragen.
XML-Sitemap
Die Suchmaschinenbetreiber Google, Yahoo und Microsoft haben sich auf ein Protokoll geeinigt, mit dem Webmaster Suchmaschinen die Struktur ihrer Webseite bekannt geben können. Dazu müssen Seitenbetreiber eine speziell formatierte XML-Datei auf ihrem Server ablegen, in der alle URLs aufgelistet sind, die von den Suchmaschinen indexiert werden sollen. Zusätzlich zu den bloßen URLs kann optional das Datum der letzten Änderung, die voraussichtliche Änderungshäufigkeit, sowie ein Wert für die Rangordnung der jeweiligen URL in der Seitenstruktur angegeben werden.
Eine XML-Sitemap ist keine Voraussetzung für eine Indexierung, bietet aber Vorteile für Webseitenbetreiber. Als wichtigster kann die Möglichkeit genannt werden, den Suchmaschinen eine strukturierte und v. a. vollständige Liste von Unterseiten zu übergeben. So gelangen auch Informationen in den Index, die über das bloße Verfolgen von Links nicht von den Crawlern aufgefunden werden können.
Umleitungen
Wenn sich die URL einer Seite ändert oder eine ganze Webseite auf eine andere Domain umgezogen wird, wird häufig eine Weiterleitung eingesetzt, um Besucher, die noch die alte Adresse aufrufen, automatisch auf die neue URL umzuleiten. Im Wesentlichen funktioniert das auch mit den Crawlern von Suchmaschinen. Dabei ist zu berücksichtigen, dass es drei verschiedene Arten der Umleitung gibt, die Umleitung per Meta-Tag, die Umleitung mittels Javascript und die Umleitung über einen HTTP-Header. Nur die letztgenannte Art der Umleitung ist für Suchmaschinen eindeutig interpretierbar, weshalb man Umleitungen grundsätzlich mit Hilfe des HTTP-Response Codes „301 Moved Permanently“ realisieren sollte.
Robots-Meta-Tag
Mit Hilfe des Robots-Meta-Tags lässt sich genau festlegen, wie eine bestimmte Seite indexiert und in den Ergebnissen der Suchmaschine Google angezeigt werden soll. Implementieren Sie dazu das Robots-Meta-Tag in den <head>-Bereich der betreffenden Seite:
<!DOCTYPE html> <html><head> <meta name="robots" content="noindex" /> (…) </head> <body>(…)</body> </html>
Im obigen Beispiel bewirkt das Robots-Meta-Tag, dass die Seite nicht in den Ergebnislisten von Suchmaschinen erscheint. Der Wert des Attributs name (in diesem Fall „robots“) definiert, dass die Richtlinie für sämtliche Crawler gleichermaßen gilt. Wenn Sie nur bestimmte Crawler adressieren wollen, ersetzen Sie den Wert des Attributs name durch den Namen des jeweiligen Crawlers.
Der Name eines Crawlers wird auch als User-Agent bezeichnet (ein Crawler verwendet seinen User-Agent, um eine Seite anzufordern). Googles Standard-Webcrawler hat den User-Agent „googlebot“. Um nur Googlebot an der Indizierung Ihrer Seite zu hindern, setzen Sie den Tag wie folgt um:
<meta name="googlebot" content="noindex" />
Hiermit wird speziell Google angewiesen, diese Seite nicht in den Suchergebnissen anzuzeigen. Sowohl das Attribut name als auch das Attribut content unterscheiden dabei übrigens nicht zwischen Groß- und Kleinschreibung.
X-Robots-Tag HTTP-Header
Das X-Robots-Tag kann im HTTP-Header für eine bestimmte URL verwendet werden. Alle Richtlinien, die in einem Robots-Meta-Tag verwendet werden können, sind auch als X-Robots-Tag zulässig. Im folgenden Beispiel werden Crawler aller Suchmaschinen angewiesen, eine Seite nicht zu indexieren:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)
Optional kann der X-Robots-Tag auch einen User-Agent vor den Direktiven enthalten. Der folgende HTTP-Headersatz kann beispielsweise verwendet werden, um die Anzeige einer Seite in den Suchergebnissen für verschiedene Suchmaschinen einzeln festzulegen:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
Richtlinien ohne Angabe eines User Agents sind für alle Crawler gültig. HTTP-Header, User-Agent-Name und die angegebenen Werte sind von Groß- und Kleinschreibung unabhängig.