Retrieval
Websuchmaschinen werden im wissenschaftlichen Umfeld als Information Retrieval Systeme beschrieben, was sich mit Informationsrückgewinnung übersetzen lässt. Wie oben beschrieben, erstellen Suchmaschinen zunächst einen Index, der zu jedem Begriff die Webseiten auflistet, in denen der Begriff vorkommt. Mit Hilfe dieses Index lassen sich dann alle Webseiten ermitteln, die einen vorgegebenen Begriff enthalten.
Dieser Prozess des Wiederauffindens von Webseiten wird als Retrieval bezeichnet und ist der wichtigste Faktor dafür, ob eine Webseite zu einem bestimmten Suchbegriff gefunden wird.
Boolesches Retrieval
Das boolesche Retrieval, benannt nach dem Mathematiker George Boole, ist die einfachste Form des Information Retrieval und liefert einfach diejenigen Dokumente, in denen die gesuchte Kombination von Wörtern enthalten ist. Stellt man sich den Index einer Suchmaschine wie ein Stichwortverzeichnis vor, findet man mittels booleschem Retrieval zum Begriff „Katze“ alle Webseiten, die zum Wort „Katze“ aufgelistet sind und zum Begriff „Hund“ alle Webseiten, die unter „Hund“ stehen. Zur Suchanfrage „Katze UND Hund“ erhält man dann entsprechend alle Seiten, die sowohl unter „Katze“, als auch unter „Hund“ aufgelistet sind, also die Schnittmenge der beiden Ergebnislisten. Neben der Verknüpfung mit „UND“ gibt es außerdem noch die Operatoren „ODER“ und „NICHT“.
Bei Google und den meisten anderen Suchmaschinen werden alle eingegebenen Begriffe automatisch mit „UND“ verknüpft, d.h. statt „Katze UND Hund“ schreibt man einfach „Katze Hund“ in das Suchfeld. Statt „NICHT“ benutzt man das Minus, d. h. „Katze -Hund“ liefert alle Webseiten, die „Katze“ enthalten und in denen ausdrücklich nicht das Wort „Hund“ vorkommt. Der „ODER“-Operator ist nicht implementiert. Will man alle Webseiten erhalten, die entweder „Katze“ oder „Hund“ enthalten, muss man bei Google zweimal suchen, einmal nach „Katze“ und einmal nach „Hund“.
Für die Suchmaschinenoptimierung bedeutet das zunächst nichts anderes, als dass man auf seine Webseite die Wörter schreiben sollte, zu denen man gefunden werden will.
Vektorraum-Retrieval
Das Vektorraummodell ist ebenfalls ein Klassiker im Information Retrieval, aber bereits deutlich komplexer und leistungsfähiger. Das boolesche Retrieval schlägt für jedes Wort in der Suchanfrage einzeln nach, in welchen Dokumenten es vorkommt und bildet dann für Mehrwort-Suchanfragen die Schnittmenge der Ergebnisse. Beim Vektorraum-Retrieval werden dagegen jedes Dokument und auch die Suchanfrage selbst durch einen Vektor beschrieben. Jeder Begriff, der im Dokument bzw. der Suchanfrage vorkommt, erzeugt eine Dimension im Vektorraum.
Wer sich mit den Details befassen möchte, dem sei die Literaturliste bei Wikipedia empfohlen. Sehr stark vereinfacht kann man sich die Vektoren als Pfeile im (vieldimensionalen) Raum vorstellen. Jede Webseite wird durch einen Pfeil repräsentiert, ebenso die Suchanfrage des Nutzers. Je ähnlicher ein Webseitenpfeil dem Anfragepfeil ist, desto relevanter ist die Webseite für die Suchanfrage. Die Ergebnisliste ist dann im Unterschied zum booleschen Retrieval nach Relevanz sortiert, es findet also beim Retrieval gleichzeitig auch ein Ranking der Ergebnisse statt.
Der tatsächliche Effekt des Vektorraummodells auf das Ranking einer Webseite hängt stark von den Details der Implementierung ab. Für die Suchmaschinenoptimierung lässt sich festhalten, dass es eine Rolle spielt, wie häufig ein Begriff vorkommt (mehr dazu unten).
Recall and precision
Die Qualität eines Retrieval Systems bzw. einer zu einem Suchbegriff gefundenen Ergebnisliste lässt sich anhand der Begriffe Recall und Precision bewerten. Precision bezeichnet dabei den Anteil der relevanten Ergebnisse im Verhältnis zur Gesamtmenge der Treffer. Liefert Google bspw. 10 Ergebnisse zu einer Suchanfrage, von denen nur 9 relevant sind, liegt die Precision in diesem Fall bei 90%. Recall bezeichnet dagegen den Anteil der zurückgelieferten relevanten Ergebnisse im Verhältnis zu den im Index vorhandenen relevanten Ergebnissen. Wenn Google also eigentlich 10 relevante Ergebnisse im Index hat, aber nur 9 davon auf meine Suchanfrage als Ergebnis liefert, dann liegt der Recall bei 90 Prozent.
Um Suchmaschinen zu verstehen, ist es wichtig, diese beiden Werte zu kennen, da davon auszugehen ist, dass auch die Entwickler bei Google & Co. diese zur Bewertung von Suchalgorithmen heranziehen. Wie wir wissen, findet Google zu vielen Suchanfragen tausende oder auch Millionen von Suchergebnissen. Die Frage, ob das tatsächlich alle relevanten Ergebnisse sind (Recall), spielt in solchen Fällen keine Rolle, solange die zurückgegebenen Ergebnisse alle relevant sind (Precision).
Für die Suchmaschinenoptimierung lässt sich aus dieser Bewertung die Erkenntnis gewinnen, dass Google ganz andere Ziele verfolgt, als die Betreiber der Webseiten, die im Google-Index gelistet sind. Während es für den Betreiber einer Webseite alles bedeutet, dass seine Webseite in der Ergebnismenge enthalten ist, spielt für Google die einzelne Webseite keine Rolle, solange die zurückgelieferten Ergebnisse das Nutzerbedürfnis befriedigen. Immer wieder kommt es vor, dass Google eine Änderung vornimmt, die Spam aus den Suchergebnissen filtern soll und dabei unerwünschterweise auch qualitativ hochwertige Webseiten aus den Ergebnissen verbannt. Für die Betreiber dieser Webseiten hat das unter Umständen stark negative Auswirkungen. Google wertet die entsprechende Änderung dagegen möglicherweise trotz dieser Kollateralschäden als Erfolg, solange sich die gemessene Precision erhöht.
Gewichtung/Ranking von Suchergebnissen
Gibt man in das Suchfeld einer Websuchmaschine einen Begriff ein, tut diese zunächst nichts anderes, als mit Hilfe des Index zu ermitteln, auf welchen Webseiten der eingegebene Begriff vorkommt. Gibt es zum eingegebenen Begriff nur eine Handvoll Treffer, können diese dem Nutzer als einfache Ergebnisliste präsentiert werden. Schwierig wird es dann, wenn es sehr viele Treffer gibt. Damit die Treffer, die am besten zum eingegebenen Suchbegriff passen, ganz oben stehen, setzen Suchmaschinen Rankingverfahren ein.
Rankingverfahren haben das Ziel, Dokumente innerhalb einer Trefferliste so zu sortieren, dass die relevantesten Dokumente ganz oben erscheinen, während weniger relevante Dokumente am Ende der Trefferliste landen.