Rankingverfahren
Die von einer Suchmaschine eingesetzten Rankingverfahren entscheiden zum einen maßgeblich über die Qualität der Suchergebnisse, zum anderen ist deren möglichst detailreiche Kenntnis die Grundlage des Erfolgs bei der Suchmaschinenoptimierung. Ziel des folgenden Kapitels ist es, die wichtigsten Faktoren zu erläutern, mit denen das Ranking bei modernen Suchmaschinen bestimmt wird.
Im Information Retrieval (IR) werden die Rankingfaktoren in anfrageabhängige und anfrageunabhängige Faktoren unterteilt. Anfrageabhängig sind in erster Linie Faktoren, die eine Suchanfrage mit dem Inhalt der zu rankenden Dokumente abgleichen. Anfrageunabhängige Faktoren bewerten die Relevanz eines Dokuments anhand von Merkmalen, die von einer spezifischen Suchanfrage unabhängig sind.
In der Suchmaschinenoptimierung hat sich eine praxisorientierte Unterteilung in Onsite- und Offsite- bzw. Onpage und Offpage-Faktoren durchgesetzt. Onsite-Faktoren zeichnen sich dadurch aus, dass sie vom Webseitenbetreiber direkt beeinflussbar sind und betreffen den Inhalt und die Struktur der zu optimierenden Webseite. Offsite-Faktoren sind äußere Merkmale einer Webseite, die nur indirekt beeinflussbar sind. Tatsächlich werden jedoch häufig auch einige direkt beeinflussbare Merkmale den Offsite-Faktoren zugerechnet, so dass die Unterteilung mit der aus dem IR bekannten weitgehend deckungsgleich ist. Daher wird im Folgenden diese Unterteilung beibehalten.
Anfrageabhängige Rankingfaktoren
Anfrageabhängige Rankingfaktoren stehen immer in Zusammenhang mit einer Suchanfrage, d. h. mit einem Suchbegriff bzw. einer Suchphrase.
Dokumentspezifische Wortgewichtung (Keyworddichte)
Die dokumentspezifische Wortgewichtung ist die „Relative Häufigkeit des Vorkommens eines Worts in einem Dokument“. Grundsätzlich gehen Suchmaschinen davon aus, dass ein Dokument umso relevanter ist, je häufiger der jeweilige Suchbegriff darin vorkommt. Die dokumentspezifische Wortgewichtung, in der Suchmaschinenoptimierung meist als Keyworddichte bezeichnet, berücksichtigt darüber hinaus auch die Länge eines Dokuments.
Die optimale Keyworddichte für die Suchmaschinenoptimierung ist ein vieldiskutiertes Thema. In der Literatur werden Werte zwischen drei und acht Prozent bzw. drei bis vier Prozent als optimale Keyworddichte genannt, wobei die Suchmaschinenbetreiber selbst dazu keine genauen Angaben machen. Unbestritten ist, dass eine zu hohe Keyworddichte schädlich sein kann, insbesondere dann, wenn man so genanntes Keywordstuffing betreibt, „also das Vollstopfen einer Webseite mit Keywords“.
Wortabstand
Bei Suchphrasen, d. h. bei Suchanfragen mit mehr als einem Begriff spielt auch der Abstand der Begriffe zueinander eine Rolle für das Ranking. „Dokumente, in denen die Suchbegriffe nahe beieinander stehen, werden solchen Dokumenten vorgezogen, in denen die Suchbegriffe nur weit voneinander entfernt vorkommen.“ Ideal im Sinne der Suchmaschinenoptimierung ist es daher, wenn die Zeichenkette der Suchphrase exakt im Text vorkommt.
Strukturinformationen
Insbesondere für gängige Websuchmaschinen optimierte Webseiten sind in der Regel in HTML kodiert, weshalb im Folgenden ausschließlich auf HTML-Dokumente eingegangen wird. HTML bietet mit Hilfe von Tags grundlegende Möglichkeiten, Fließtext semantisch zu strukturieren. Diese Strukturinformationen werden von allen bedeutenden Suchmaschinen zumindest teilweise interpretiert.
Das wichtigste HTML-Element im Hinblick auf die Suchmaschinenoptimierung einer Webseite ist das Title-Tag, das den Titel eines Dokuments bezeichnet. Entsprechend bedeutsam sind die Begriffe im Titel für die Bewertung der anfrageabhängigen Relevanz eines Dokuments. Das HTML-Title-Tag „wird daher von den Suchmaschinen auch entsprechend ausgewertet und fließt meist mit relativ hoher Gewichtung in das Ranking ein“. Gleichzeitig muss bei der Gestaltung des Dokumenttitles bedacht werden, dass dieser auch als anklickbare Überschrift in den Ergebnislisten der Suchmaschinen, sowie als Standardtext beim Anlegen eines Browser-Lesezeichens Verwendung findet. Um allen genannten Anforderungen gerecht zu werden, sollte das HTML-Title-Tag daher die für das jeweilige Dokument wichtigsten Suchbegriffe in menschenlesbarer Gestaltung enthalten und nicht länger als ca. 65 Zeichen sein. Auf jeden Fall sollten sich die Title-Tags der einzelnen Unterseiten einer Webpräsenz unterscheiden.
Neben dem Title-Tag ist vor allem die korrekte Auszeichnung von Überschriften mittels der HTML Tags <h1> bis <h6> für Überschriften erster bis sechster Ordnung. „Anhand der Überschriften können die Suchmaschinen die Gliederung von Texten erkennen und Begriffe je nach ihrem Vorkommen auf unterschiedlichen Hierarchieebenen für das Ranking gewichten.“
Meta-Tags
HTML Meta-Tags stellen „die HTML-eigene Schnittstelle für jede Art von Information über ein Dokument“ dar. Zu einer Zeit, in der Webseiten in erster Linie der Veröffentlichung wissenschaftlicher Publikationen dienten, wurde ein Meta-Tag zur Verschlagwortung eingeführt, das so genannte Keywords-Tag. Grundsätzlich eignet sich diese Verschlagwortung auch zur Auswertung durch Suchmaschinen.
Dies hat sich in der Praxis jedoch nicht bewährt. In den Metatags können Daten zur Beschreibung des Dokuments hinterlegt werden. Solche Metadaten werden zwar allgemein als nützlich für die Beschreibung von Dokumenten angesehen, aber im Zusammenhang mit der Websuche hat sich leider herausgestellt, dass diese Form der Inhaltserschließung sehr oft von Autoren missbraucht wird, in dem sie irreführende Metadaten einfügen. Aus diesem Grund wertet keine der großen Suchmaschinen noch solche Metadaten aus.
Neben dem Keywords-Tag ist noch das so genannte Description-Tag für die Suchmaschinenoptimierung relevant. Mit diesem Meta-Tag haben Webmaster die Möglichkeit, eine kurze Beschreibung zu jeder HTML-Seite anzugeben. Zwar hat das Description-Tag keine direkte Auswirkung auf das Ranking, es wird jedoch unter Umständen anstelle des sonst üblichen Textauszugs in den Suchergebnislisten angezeigt.
Stellung der Suchbegriffe
Ein Rankingkriterium ist auch die Stellung des jeweiligen Suchbegriffs im Inhalt eines Dokuments. „Hier wird angenommen, dass Begriffe, die am Beginn des Dokuments stehen, wichtiger sind als solche, die erst in späteren Passagen auftauchen.“ Was für Dokumente gilt, gilt möglicherweise auch für einzelne Absätze. Darüber hinaus ist die zusätzliche Erwähnung des Suchbegriffs am Ende eines Dokuments ein Indiz für dessen anfrageabhängige Relevanz. Bei der Stellung der Suchbegriffe innerhalb eines Dokuments ist zu beachten, dass die Suchmaschinen ausschließlich mit dem HTML-Quelltext arbeiten. Demzufolge spielt es keine Rolle, an welcher Stelle eine Textpassage auf der gerenderten Webseite im Browser angezeigt wird, sondern ausschließlich, an welcher Stelle die Passage im HTML-Quelltext vorkommt.
Suchbegriffe in der URL
Nicht nur der Inhalt eines Dokuments wird von Suchmaschinen ausgewertet, sondern auch die URL, unter der das jeweilige Dokument zu finden ist. Eine URL besteht typischerweise aus der Second und Top-Level-Domain, ggf. einer Subdomain, sowie Verzeichnis- und Dateinamen. Die dabei verwendeten Begriffe in allen Teilen einer URL werden von Suchmaschinen ausgewertet. Während eine Webseite aus zahlreichen Dateien, Verzeichnissen und Subdomains bestehen kann, ist sie auf eine einzige Second-Level-Domain beschränkt. In der Regel wird die Domain daher so gewählt, dass sie beschreibend für die gesamte Webseite ist. Diese Tatsache wird vermutlich auch von Suchmaschinen berücksichtigt.
Für die Suchmaschinenoptimierung folgt daraus, dass sämtliche Bestandteile einer URL gezielt gewählt werden sollten. Das gilt insbesondere für den Domainnamen.
Valider HTML-Code
Die Validität, d. h. die Korrektheit des eingesetzten HTML-Quelltextes hat keine direkte Auswirkung auf das Ranking. Ebenso wie moderne Browser mit nicht 100%ig richtlinienkonformem HTML umgehen können, sind auch die Crawler von Suchmaschinen in der Lage, über HTML-Fehler hinwegzusehen. Allerdings kann fehlerhafter HTML-Code dazu führen, dass eine Extraktion der Inhalte durch die Crawler zumindest teilweise unmöglich wird, bspw. durch falsch gesetzte Klammern oder Anführungszeichen. Derartige Fehler können durch die Verwendung von validem HTML ausgeschlossen werden, da sich die Validität bspw. mit einem Tool des World Wide Web Consortium (W3C) vollautomatisch überprüfen lässt.
Anfrageunabhängige Rankingfaktoren
Intuitiv machen anfrageunabhängige Rankingfaktoren zunächst keinen Sinn. Wenn die Relevanz einer Webseite unabhängig von der Suchanfrage bestimmt wird, ist diese für jede Suchanfrage gleich relevant. Allerdings eignen sich anfrageunabhängige Rankingfaktoren hervorragend, um Webseiten mit niedriger Qualität im Ranking herabzustufen. Die meisten anfrageabhängigen Rankingfaktoren sind unmittelbar von den jeweiligen Webseitenbetreibern kontrollierbar. Da die Veröffentlichung von Dokumenten im Web keiner Qualitätskontrolle unterliegt, sind die Qualitätsunterschiede hoch. Nicht zuletzt um Manipulationsversuchen von Webseitenbetreibern entgegenzuwirken, setzen alle Suchmaschinenbetreiber mittlerweile auf eine Kombination mit anfrageunabhängigen Rankingfaktoren, deren Ziel es ist, die „Autorität eines Dokuments unabhängig von einer Suchanfrage zu bestimmen“. Die meisten anfrageunabhängigen Rankingfaktoren zeichnen sich insbesondere dadurch aus, dass sie der direkten Kontrolle durch die Betreiber der zu rankenden Webseiten entzogen sind.
Seiteninterne Hierarchie
Typischerweise sind Webseiten hierarchisch aufgebaut, wobei die Startseite einer Webpräsenz die oberste Stufe repräsentiert. „Je weiter unten sich eine Seite in solch einer Hierarchie findet, desto wahrscheinlicher ist es, dass der Webmaster ihr weniger Bedeutung zumisst.“ Da sich die Hierarchie in vielen Fällen in der Verzeichnisstruktur widerspiegelt, kann die Lage eines Dokuments innerhalb der Verzeichnisstruktur als Rankingkriterium herangezogen werden.
Da Hierarchie und Verzeichnisstruktur insbesondere bei dynamisch generierten Webseiten nicht zwingend übereinstimmen müssen, ist diese Methode als eher unzuverlässig zu bewerten. Inwieweit die Verzeichnisstruktur von Websuchmaschinen für das Ranking herangezogen werden, ist nicht bekannt. Eine zuverlässigere Methode, die Hierarchie der Unterseiten einer Webpräsenz zu bestimmen, stellen linktopologische Verfahren dar.
Um dieses Kriterium bei der Suchmaschinenoptimierung zu berücksichtigen, kann die vorgesehene Hierarchie auf die Verzeichnisstruktur abgebildet werden. Die Hierarchie selbst sollte unter Berücksichtigung der Suchmaschinenoptimierung gestaltet werden. „Möchten Sie auf einen Begriff optimieren, bei dem es viele Treffer und viele starke Seiten als Gegner gibt, sollten Sie daher eine Ihrer Webseiten auswählen, die ziemlich nahe an der Startseite hängt.“
Popularität einer Webseite
Die Popularität eines Dokuments bzw. einer Webseite kann zur Bestimmung der Autorität und damit der Relevanz einer Webseite herangezogen werden. „Dokumente, die von vielen Benutzern angesehen werden, werden höher bewertet.“ Typischerweise haben Suchmaschinen die Möglichkeit, die Popularität einer Webseite anhand der Klickhäufigkeit in den Suchergebnislisten zu ermitteln. Das gilt natürlich nur für Webseiten, die in diesen bereits prominent vertreten sind.
Insbesondere der Marktführer Google verfügt über weitere Datenquellen zur Bestimmung der Popularität einer Webseite. So bietet Google bspw. eine Toolbar an, die die URL jeder aufgerufenen Webseite an Google übermittelt. Darüber hinaus blenden viele Webseiten Anzeigen aus dem Google-Werbenetzwerk AdSense ein, die bei jedem Seitenaufruf von Google-Servern abgerufen werden. Schließlich bietet Google Webmastern die Möglichkeit, den Traffic ihrer Webseite mit Google Analytics auszuwerten, wobei sämtliche Daten ebenfalls auf Google-Servern gespeichert werden. Mit Google Trends for Websites können Webmaster einen Eindruck von der Genauigkeit der Daten gewinnen, die Google über ihre Webseite sammelt.
Inwiefern diese Daten in das Ranking einfließen, ist nicht im Detail bekannt. Man kann jedoch davon ausgehen, dass zumindest die Klickhäufigkeit in den Suchergebnislisten eine Rolle für das Ranking spielt.
Die Popularität zu steigern ist ohnehin das Ziel der Suchmaschinenoptimierung und bietet daher keine direkten Ansatzpunkte für eine Optimierung. Die Frage ist, wie Suchmaschinenbetreiber die Popularität einer Webseite ermitteln und welche Faktoren in die Berechnung einfließen. Grundsätzlich ist es vorstellbar, dass hierzu auch Daten aus sozialen Netzwerken oder Statistiken über die Häufigkeit von direkt in die Browser-Adressleiste getippten URLs ausgewertet werden. Interaktionen auf Facebook & Co. könnten dann das Suchmaschinenranking ebenso beeinflussen, wie Werbeschaltungen in Offlinemedien.
Verweildauer
Über die genannten Datenquellen zur Ermittlung der Popularität einer Webseite erhalten die Suchmaschinenbetreiber auch Daten über die Verweildauer auf einer Webseite. Insbesondere Nutzer, die einem Link in der Suchergebnisliste folgen und unmittelbar danach, bspw. über den „Zurück“-Button ihres Browsers, auf die Suchergebnisseite zurückkehren, sind ein Indiz dafür, dass die gesuchte Information nicht auf der besuchten Webseite gefunden werden konnte.
Die Verweildauer zu steigern dürfte nicht nur ein Ziel der Suchmaschinenoptimierung sein und ist somit in jedem Fall zu empfehlen. Insbesondere sollte unter diesem Gesichtspunkt eine Optimierung für unpassende Suchbegriffe vermieden werden, d. h. für Begriffe, die ein Informationsbedürfnis der Nutzer ausdrücken, das nicht bedient wird und nicht bedient werden soll.
Aktualität
Grundsätzlich kann die Aktualität eines Dokuments oder einer Webseite von den Suchmaschinen zur Bestimmung des Rankings herangezogen werden. „So bewerten manche Suchmaschinen offensichtlich neuere Dokumente generell höher und bevorzugen diese gegenüber den über längere Zeit unveränderten Dokumenten“. In einer Patentanmeldung von Google wird bspw. hervorgehoben:
„Zu den Webdokumenten, die den Nutzern als „Treffer“ angezeigt werden, gehören häufig veraltete Dokumente. Wäre die Aktualität von Webdokumenten zuverlässig bekannt, könnte die bekannte Aktualität in der Rangfolge der Suchergebnisse verwendet werden, um zu vermeiden, dass veraltete Webdokumente in den Top-Ergebnissen erscheinen.“
Dabei ist jedoch zu beachten, dass die Aktualität der Ergebnisse für die Suchmaschinennutzer nur in bestimmten Fällen von Vorteil ist. Entsprechend kann davon ausgegangen werden, dass die Bevorzugung aktueller Dokumente auf bestimmte Suchbegriffe begrenzt ist, bspw. auf Suchbegriffe deren Suchvolumen aufgrund aktueller Ereignisse kurzfristig stark zunimmt. „Zumindest Google ist schon in der Lage, über die plötzliche Erhöhung der Abfragefrequenz eines Suchwortes diesen Ausnahmezustand zu erkennen und in diesem Fall andere Suchergebnisse zu liefern. Nämlich aktuelle, am besten erst ein paar Stunden oder Minuten alt.“
Eine häufige Aktualisierung von Webseiten nur aus Gründen der Suchmaschinenoptimierung ist demnach nicht zwingend notwendig, es sei denn, die Optimierung wird für Suchbegriffe durchgeführt, die kurzfristig in den Fokus von Suchmaschinennutzern geraten.
Dokumentlänge
Die Länge eines Dokuments oder besser die Menge an sichtbarem Text in einem Dokument kann von Websuchmaschinen ebenfalls für das Ranking herangezogen werden. Ein idealer Text im Sinne der Suchmaschinenoptimierung ist dabei lang genug, um aussagekräftig zu sein, aber nicht zu lang.
Genaue Werte wurden seitens der Suchmaschinenbetreiber dazu jedoch nicht veröffentlicht. Als Anhaltspunkt könnte die Dokumentlänge der Mitbewerber-Webseiten zum jeweiligen Suchbegriff dienen. Allerdings ist diese Vorgehensweise nur bedingt aussagekräftig, da unklar ist, ob diese Webseiten gerade wegen oder trotz der jeweiligen Dokumentlänge ein gutes Ranking erfahren.
Größe der Webseite
Neben der Länge einzelner Dokumente kann auch die Größe der gesamten Webseite, also bspw. die Anzahl der Unterseiten oder die Gesamtmenge an sichtbarem Text als Kriterium zur Bewertung der Relevanz dienen. „Hierbei wird angenommen, dass die Chance, dass ein auf einer umfangreichen Site abgelegtes Dokument relevant ist, höher ist als auf einer kleinen Site.“
Historie der Webseite
Nicht nur das Alter bzw. die Aktualität einzelner Dokumente kann von Suchmaschinen in die Rankingberechnung mit einbezogen werden, sondern auch das Alter einer Webseite bzw. Domain insgesamt. Bereits seit dem Jahr 2004 diskutieren Suchmaschinenoptimierer die Frage, ob es bei Google einen so genannten Sandbox-Effekt gibt, bei dem insbesondere junge Webseiten für einige Zeit im Ranking benachteiligt werden und bspw. trotz guter Inhalte und zahlreicher eingehenden Links kein gutes Ranking erreichen.
Dabei ist nicht das Alter der Webseite allein entscheidend, sondern die Historie rankingrelevanter Faktoren. In einem Google-Patent wird ein Verfahren beschrieben, mit dem Webseiten anhand mehrerer historischer Merkmale bewertet werden können:
„Das Verfahren kann das Identifizieren eines Dokuments und das Erhalten einer oder mehrerer Arten von Verlaufsdaten, die mit dem Dokument verbunden sind, beinhalten. Das Verfahren kann ferner das Erzeugen einer Bewertung für das Dokument umfassen, die zumindest teilweise auf dem einen oder den mehreren Typen von Verlaufsdaten basiert.“
Mit diesem und anderen Verfahren wird versucht, eine überoptimierte Webseite zu erkennen, d. h. eine Webseite, „die zwar nicht die Spam-Kriterien erfüllt, jedoch nach algorithmischen Maßen weit über die Norm hinausgeht“. Für den Sandbox-Effekt ist anzunehmen, dass es sich nicht um einen eigenen Algorithmus bzw. Filter zur Spam-Bekämpfung handelt, sondern um einen „Effekt verschiedener anderer algorithmischer Berechnungen“.
Suchmaschinenoptimierer können versuchen, den Sandbox-Effekt zu umgehen, indem sie die Optimierung zeitlich über einen längeren Zeitraum verzögern. Da jedoch keine Details zur Entstehung des Sandbox-Effekts bekannt sind, sind sie auf die Trial and Error-Methode angewiesen. Denkbar ist jedoch, dass der Effekt durch „eine entsprechende Anzahl an qualitativ hochwertigen Inbound-Links“ vermieden werden kann.
Serverstandort und Top-Level-Domain
Viele Suchmaschinen bieten die Möglichkeit, die Ergebnismenge nach Sprache oder Herkunft einzuschränken. Google bietet auf google.de bspw. die Möglichkeit, „Das Web“, „Seiten auf Deutsch“ oder „Seiten aus Deutschland“ zu durchsuchen. Während die ersten beiden erwartungsgemäß Ergebnisse aus dem gesamten Index bzw. nur deutschsprachige Dokumente als Ergebnis liefern, ist die letzte Option nicht selbsterklärend. Es stellt sich die Frage, anhand welcher Kriterien Google festlegt, ob ein Dokument bzw. eine Webseite „aus Deutschland“ stammt.
Google selbst empfiehlt, eine entsprechende Länderdomain zu nutzen, also bspw. .de für Seiten aus Deutschland oder, bei geografisch nicht eindeutigen Domains, den Standort manuell über Googles Webmaster Tools (vgl. unten) bekannt zu geben:
„Verwenden Sie vorzugsweise Domains der obersten Ebene (Top-Level-Domains), um landesspezifischen Content zu präsentieren. „.de“ weist eher auf Deutschland-spezifischen Content hin (…) Falls Sie eine geografisch neutrale Top-Level-Domain (wie .com, .org, oder .net) verwenden, setzen Sie Webmaster-Tools ein, um Ihre Website mit einem geografischen Standort zu verknüpfen.“
Eine weitere Möglichkeit, einen regionalen Bezug herzustellen, ist der Serverstandort. Dieser kann anhand der IP-Adresse unproblematisch ermittelt werden. Inwieweit diese Möglichkeit von Suchmaschinen genutzt wird, ist jedoch nicht im Detail bekannt. Für eine Auswertung durch Google spricht aber bspw. die Tatsache, dass bei einer Suche nach „Seiten aus Deutschland“ immerhin ca. 300.000 Ergebnisse mit der britischen Domainendung co.uk gefunden werden.
Für die Suchmaschinenoptimierung empfiehlt es sich folglich, nach Möglichkeit eine entsprechende länderspezifische Top-Level-Domain oder eine „geografisch neutrale“ Domain zu nutzen bzw. die Inhalte auf einem Server abzulegen, der sich in Deutschland befindet.
Erreichbarkeit
Eine durchgehende Serverreichbarkeit ist nicht nur für die Suchmaschinenoptimierung wünschenswert. Dass ein Server bzw. eine Webseite erreichbar sein muss, um von Suchmaschinen indexiert zu werden, liegt auf der Hand. Während sich die direkten Nachteile bei einem vorübergehenden Ausfall des Servers in der Regel auf den Besucherverlust in der Zeit des Ausfalls beschränken, besteht im Hinblick auf Suchmaschinen das Risiko eines mittelfristig deutlich umfangreicheren Nachteils. Nämlich dann, wenn die Webseite für die Crawler der Suchmaschinen nicht erreichbar sind und die Suchmaschine die Webseite in der Konsequenz deindexiert.
Darüber hinaus bewertet Google beim Anzeigennetzwerk AdWords die Qualität einer Zielseite u. a. anhand der Ladezeit:
„Die Ladezeit bezieht sich hierbei auf den Zeitraum, bis einem Nutzer nach dem Klicken auf Ihre Anzeige Ihre Zielseite angezeigt wird. (…)Nutzer schätzen Anzeigen, die ihnen so effizient wie möglich Informationen bereitstellen. Qualitativ hochwertige Zielseiten sollten eine schnelle Ladezeit (…) aufweisen.“
Dass dieses Merkmal auch für das Ranking der organischen Suchergebnisse berücksichtigt wird, ist nicht gesichert. Da Google die Ladezeit jedoch als eindeutiges Qualitätsmerkmal betrachtet, ist davon auszugehen.
Für die Suchmaschinenoptimierung bedeutet das, dass ein dauerhaft und schnell erreichbarer Server eingesetzt werden sollte, wobei sich die Qualität der Erreichbarkeit letztlich nur durch eine regelmäßige Überprüfung feststellen lässt.
Linktopologische Rankingfaktoren
Linktopologische Rankingverfahren „bewerten die Qualität bzw. Autorität von Dokumenten aufgrund ihrer Verlinkung durch andere Dokumente“. Die im Folgenden vorgestellten linktopologischen Rankingverfahren sind fast durchgehend anfrageunabhängig. Sie stellen jedoch im Zusammenhang mit modernen Websuchmaschinen ein „besonders wichtiges Kriterium für die Bewertung von Dokumenten“ dar.
Arten von Links
Ein Link ist in diesem Zusammenhang ein HTML-Link, definiert durch das <a>-HTML-Tag. Um einen Link von einer HTML-Seite zu setzen, sind mindestens zwei Angaben notwendig, die URL der zu verlinkenden Seite, sowie ein beschreibender Text oder ein Bild. Demnach kann zwischen einem Text- und einem Bildlink unterschieden werden.
Nicht alle Links sind jedoch für Suchmaschinen auswertbar. So verarbeitet derzeit keine der bedeutenden Suchmaschinen Javascript-Code. Entsprechend werden Links, die per Javascript gesetzt werden, nicht erkannt.
Um Link-Spam (vgl. unten) zu bekämpfen, haben die Suchmaschinenbetreiber Google, Yahoo und Microsoft das Nofollow-Tag eingeführt, mit dem Webmaster Links kennzeichnen können, „die keine »Linkkraft« (zur Erhöhung der so genannten »Linkpopularität«) vererben sollen“.
Linkpopularität
Eine Qualitätsbewertung anhand der Popularität wurde ursprünglich zunächst mit Zitationen in wissenschaftlichen Aufsätzen durchgeführt. Die Annahme dabei lautet: Je häufiger ein Aufsatz von anderen Wissenschaftlern zitiert wird, desto höher ist seine Qualität bzw. Autorität. Dieses Zitationsprinzip wird von Websuchmaschinen auf die Verlinkung von Webdokumenten übertragen. Demnach ist die Qualität bzw. Autorität eines Dokuments umso höher, je öfter es von anderen Dokumenten verlinkt wird.
Die Übertragung dieses Prinzips auf das Web geschieht durch die Analyse der Verlinkung von Webseiten. Wird eine Seite oft verlinkt (= zitiert), gewinnt sie an Bedeutung.
Die Qualitätsbewertung anhand eingehender Links hat für die Suchmaschinenoptimierung schwerwiegende Folgen, da die Optimierung damit nicht mehr vollständig der Kontrolle der Webseitenbetreiber unterliegt. Erschwerend kommt hinzu, dass die Suchmaschinenbetreiber aufwändige Verfahren entwickelt haben, mit denen neben der quantitativen auch eine qualitative Auswertung der Linkpopularität möglich ist, die in den nachfolgenden Kapiteln beschrieben werden.
Pagerank
Die Idee hinter dem Pagerank-Algorithmus, benannt nach Google Mitgründer Larry Page, ist das Modell eines Zufallssurfers, der ausgehend von einer zufällig gewählten Webseite im Web surft, in dem er Hyperlinks folgt. Zusätzlich besteht jederzeit eine festgelegte Wahrscheinlichkeit, mit der der Zufallssurfer auf eine beliebige Webseite springt und von dort aus weitersurft:
„PageRank kann als ein Modell des Nutzerverhaltens betrachtet werden. Wir nehmen an, dass es einen ‚zufälligen Surfer‘ gibt, der eine zufällige Webseite erhält und immer wieder auf Links klickt, nie ‚zurück‘ drückt, aber schließlich gelangweilt ist und eine andere zufällige Seite aufruft. Die Wahrscheinlichkeit, dass der Zufallssurfer eine Seite besucht, ist ihr PageRank.“
Der Pagerank bezeichnet also die Wahrscheinlichkeit, mit der der Zufallssurfer auf eine Webseite gelangt, wobei diese für Seiten mit vielen eingehenden Links höher ist, als für Seiten mit wenigen eingehenden Links. Darüber hinaus erhöht sich die Wahrscheinlichkeit und damit der Pagerank einer Webseite dann, wenn die auf sie linkenden Seiten ebenfalls häufig verlinkt sind. Vereinfacht ausgedrückt, „Pagerank’s thesis is that a webpage is important if it is pointed to by other important pages”.
Bis 2016 machte Google den Pagerank für Nutzer sichtbar, wenn diese die Google-Toolbar installiert hatten. In Form eines grünen Balkens in der Toolbar wurde der Pagerank für jede im Browser geöffnete Webseite auf eine Skala von 1 bis 10 abgebildet.
Nicht zuletzt die Veröffentlichung des Pageranks jeder Webseite hat dazu geführt, dass Links zu einer Handelsware in Suchmaschinenoptimierer-Kreisen geworden sind, wobei Links mit hohem Pagerank teurer waren, als Links mit niedrigem Pagerank. Um diesem Handel Einhalt zu gebieten, hat Google den angezeigten Wert nur in größeren Zeitabständen aktualisiert und das Experiment schließlich wieder beendet.
Domainpopularität
Für die Berechnung der einfachen Linkpopularität wird jeder eingehende Link gezählt. Eine Webseite, die von einer großen Zahl von Unterseiten einer einzigen Domain verlinkt wird, weist eine ebenso hohe Linkpopularität auf, wie eine Webseite, die von einer großen Zahl an unterschiedlichen Domains jeweils einmal verlinkt wird. Gleichzeitig ist der Google Pagerank Algorithmus so konzipiert, dass bereits ein einziger eingehender Link zu einem hohen Pagerank führen kann, wenn die linkgebende Seite einen noch höheren Pagerank hat. Um dem vorzubeugen, verlassen sich Suchmaschinen nicht allein auf die Linkpopularität bzw. Google auf den Pagerank, sondern berücksichtigen auch die Anzahl unterschiedlicher Domains, von denen eine Webseite verlinkt wird, die so genannte Domainpopularität.
Ziel der Suchmaschinenoptimierung ist es daher nicht ausschließlich, die Linkpolularität bzw. den Pagerank zu erhöhen, sondern diese Erhöhung durch eine möglichst breit gestreute Backlinkstruktur zu erreichen.
Selbstverlinkung
Als besonders bedeutsam für den Suchmaschinenbereich muss ein Problem angesehen werden, das auch schon in der Diskussion um die Zuverlässigkeit der Zitationsindizes auftaucht. Selbstzitierung bedeutet, dass ein Autor seine eigenen Artikel in weiteren Publikationen zitiert; teilweise nur, um deren Bedeutung zu erhöhen.
Übertragen auf die Verlinkung von Webseiten bedeutet das, dass Webmaster, die mehrere Webseiten betreiben, diese untereinander verlinken, um die Linkpopularität bzw. den Pagerank zu erhöhen.
Anhand der IP-Adressen von Webseiten können Suchmaschinen feststellen, ob sich zwei Webseiten auf demselben Server befinden. Jede IP-Adresse ist einem Server zugeordnet. Wenn zwei Webseiten dieselbe IP-Adresse haben, steht demnach fest, dass sie sich auf demselben Server befinden. Jedoch ist es keinesfalls so, dass alle Webseiten, die einer IP-Adresse zugeordnet sind, von einem Webmaster betrieben werden. Die meisten Webhoster legen aus Kostengründen bis zu mehrere tausend Domains auf eine IP-Adresse. Entsprechend ist die IP-Adresse nur ein Indiz, dass Suchmaschinen zur Erkennung von Selbstverlinkungen heranziehen.
Dennoch versuchen viele Suchmaschinenoptimierer, ihre Webseiten nach Möglichkeit auf unterschiedliche IP-Adressen zu verteilen. IP-Adressen bestehen aus vier Ziffernblöcken, den Blöcken A bis D. Webhoster erhalten IP-Adressen häufig als Paket, wobei die ersten drei Blöcke eines Pakets gleich sind. Da die Gleichheit dieser ersten drei Blöcke ein weiteres Indiz zur Erkennung von Selbstverlinkungen sein können, versuchen einige Suchmaschinenoptimierer darüber hinaus, ihre Webseiten auf unterschiedliche C-Blöcke zu verteilen. Das kann bspw. erreicht werden, indem die Webseiten bei verschiedenen Webhostern betrieben werden.
Eine weitaus bessere Methode zur Erkennung von Selbstverlinkungen sind die Domaininhaberdaten, die Webmaster bei der Registrierung der Domain angeben müssen. Wenn zwei Domains mit identischem Domaininhaber untereinander verlinkt sind, ist das ein deutliches Indiz für eine Selbstverlinkung. Entsprechend macht die Verschleierungstaktik mit unterschiedlichen IP-Adressen nur dann Sinn, wenn die Domains auch auf verschiedene Inhaber registriert wurden.
Die oben beschriebene Art der Selbstverlinkung mehrerer Domains eines Domaininhabers untereinander entspricht der Selbstzitation in wissenschaftlichen Aufsätzen. Daneben gibt es noch eine weitere Art der Selbstverlinkung, die keine Analogie in der Wissenschaft hat. Dabei handelt es sich um so genannte interne Links, also Links innerhalb einer Domain bzw. Webpräsenz. Interne Links nehmen bei der Bewertung der Linktopologie eine Sonderstellung ein, da sie zumeist in erster Linie zu Navigationszwecken gesetzt werden: „Site self-links (also known as internal links) are typically navigational pointers from one page to another within the same Web site.”
Reranking
Beim so genannten Reranking ermittelt eine Suchmaschine zunächst anhand klassischer Rankingmethoden eine nach Relevanz sortierte Ergebnisliste. Innerhalb des oberen Teils der Liste, bspw. innerhalb der Menge der ersten 1.000 Ergebnisse, wird dann die Linkstruktur ermittelt und ein neuer Wert für jedes Dokument errechnet, der die Verlinkungshäufigkeit innerhalb der definierten Dokumentmenge ausdrückt:
Der LocalScore für jedes Dokument basiert auf der relativen Unterstützung für dieses Dokument durch andere Dokumente in der Ausgangsmenge. Dokumente, die von einer großen Anzahl anderer Dokumente in der Ausgangsmenge verlinkt werden, haben einen hohen LocalScore.
Ziel des LocalScore ist es also, herauszufinden, welches Dokument von den übrigen Dokumenten der ursprünglichen Treffermenge am häufigsten verlinkt wird. Anhand dieser Berechnung wird die Dokumentenmenge dann neu sortiert.
Diese Methode gründet auf der Annahme, dass die Linkstruktur innerhalb themenähnlicher Dokumente aussagekräftiger ist, als die Linkstruktur des gesamten Web. Für die Suchmaschinenbetreiber ist diese Methode jedoch mit großem Aufwand verbunden, da diese Qualitätsbewertung nicht statisch für alle Dokumente berechnet werden kann, sondern stets in Abhängigkeit zu einer Suchanfrage neu ermittelt werden muss.
Im Hinblick auf die Suchmaschinenoptimierung kann das Reranking-Verfahren berücksichtigt werden, indem man beim Linkaufbau auf Themenähnlichkeit achtet.
HITS
HITS steht für „Hyperlink induced topic search“ und bezeichnet ein Verfahren zur Ermittlung der Webseiten mit der höchsten Autorität im Hinblick auf eine Suchanfrage, sowie von Webseiten, die auf möglichst viele autoritäre Webseiten verlinken, so genannten Hubs:
Hubs und Autoritäten stehen in einer sich gegenseitig verstärkenden Beziehung: Ein guter Hub ist eine Seite, die auf viele gute Autoritäten verweist; eine gute Autorität ist eine Seite, auf die viele gute Hubs verweisen.
Ausgangspunkt für HITS ist ähnlich wie beim Reranking eine vergleichsweise kleine Menge an relevanten Dokumenten im Hinblick auf eine Suchanfrage. Die Ermittlung der Autoritäten und Hubs ist relativ komplex und ist anhand der Suchergebnisse einer Suchmaschine, die HITS einsetzt, nicht nachvollziehbar.
Ziel der Suchmaschinenoptimierung ist es, die eigene Seite zu einer Autorität oder einem Hub zu machen. Entsprechend ist es auch im Hinblick auf HITS empfehlenswert, auf Themenähnlichkeit zu achten, sowohl beim Linkaufbau, als auch beim Setzen ausgehender Links.
Hilltop
Als Grundlage für das so genannte Hilltop-Prinzip dient eine klassifizierte Auswahl von Expertenseiten. Anhand bestimmter, nicht im Detail bekannter Kriterien werden zunächst für jedes Themengebiet Expertenseiten ermittelt. Die Ergebnislisten werden nun auf Ergebnisse beschränkt, die von mehreren Expertenseiten aus verlinkt werden. „Das Hilltop-Prinzip kann als Ranking-Kriterium nur unterstützend wirken. Denn sollte es zu einem bestimmten angefragten Themengebiet keine Experten-Websites geben, liefert der Algorithmus auch keine Ergebnisse.“
Nicht gewertet werden beim Hilltop-Prinzip Links von Webseiten, die einander nahestehend sind, z. B. weil sie von demselben Webmaster betrieben werden:
Zwei Hosts werden als zusammengehörig definiert, wenn eine oder beide der folgenden Bedingungen erfüllt sind:
- Sie haben die gleichen ersten 3 Oktette der IP-Adresse.
- Das äußerste rechte nicht-generische Token im Hostnamen ist das gleiche.
Beispiel: Beim Vergleich von „www.ibm.com“ und „ibm.co.mx“ werden die generischen Suffixe „.com“ bzw. „.co.mx“ ignoriert. Das resultierende Token ganz rechts ist „ibm“, das in beiden Fällen dasselbe ist. Daher werden sie als zusammengehörig betrachtet. Optional könnten wir verlangen, dass das generische Suffix in beiden Fällen gleich ist.
Die Zugehörigkeitsbeziehung ist transitiv: Wenn A und B verbunden sind und B und C verbunden sind, dann nehmen wir an, dass A und C verbunden sind, auch wenn es keinen direkten Beweis dafür gibt. In der Praxis kann es vorkommen, dass einige nicht-verbundene Hosts als verbunden eingestuft werden, aber das ist akzeptabel, da diese Beziehung konservativ sein soll.
Zusätzlich zu den den o. g. Methoden zur Erkennung von Selbstverlinkungen spielt bei der Erkennung von einander nahestehenden Webseiten beim Hilltop-Prinzip auch der Domainname eine Rolle. Darüber hinaus wird explizit die Transitivität erwähnt, wodurch auch nicht direkt verbundene Webseiten miteinander in Verbindung gebracht werden können.
Um das Hilltop-Prinzip bei der Suchmaschinenoptimierung zu berücksichtigen, kann versucht werden, Links von Experten-Webseiten zum jeweiligen Thema zu erhalten. Da nicht im Detail bekannt ist, wie diese ermittelt werden, kann man sich dabei lediglich auf ein Indiz verlassen, die so genannten Google-Sitelinks. Sitelinks sind weiterführende Deeplinks, die Google unter einigen Suchergebnissen einblendet. Deep Linking bezeichnet das Verlinken auf Seiten, die tiefer in der Hierarchie liegen. Wenn Google Sitelinks zu einer Webseite anzeigt, könnte das darauf hindeuten, dass diese Webseite als Expertenseite im Hinblick auf die jeweilige Suchanfrage gesehen wird.
Trustrank
Nach einem ähnlichen Prinzip wie der Hilltop-Algorithmus funktioniert auch der so genannte Trustrank. „Bestimmte Websites erhalten eine Vertrauensmarke, mit der sie als vertrauenswürdige Seite eingestuft werden.“ Diese Reputation wird ähnlich wie beim Pagerank über Links vererbt, so dass die Vertrauenswürdigkeit jeder Webseite anhand ihrer eingehenden Links berechnet werden kann.
Für die Suchmaschinenoptimierung ergeben sich durch den Trustrank dieselben Konsequenzen wie beim Hilltop-Prinzip. Es gilt, Links von vertrauenswürdigen Seiten zu erhalten, wobei nicht eindeutig feststellbar ist, welche Webseiten von Suchmaschinen als vertrauenswürdig eingestuft werden.
Informationsarchitektur
Die bisher vorgestellten Verfahren gelten nicht nur im Hinblick auf Links von außen, d. h. von anderen Webseiten bzw. Domains, sondern auch im Hinblick auf interne Links. Einen wesentlichen Schritt bei der Suchmaschinenoptimierung stellt daher die Optimierung der internen Verlinkung bzw. der Informationsarchitektur dar.
Die meisten Webseiten sind hierarchisch aufgebaut, wobei die Starseite die oberste Stufe der Hierarchie repräsentiert. Je näher eine Unterseite der Startseite ist, desto weiter oben steht sie in der Hierarchie. Nähe ist dabei gleichzusetzen mit der Anzahl der Links, die ausgehend von der Startseite verfolgt werden müssen, um die jeweilige Unterseite zu erreichen. Die Einordnung in die Hierarchie kann bereits ein Rankingkriterium darstellen (vgl. oben). Wichtige Seiten aus Sicht der Suchmaschinenoptimierung können entsprechend weit oben in der Hierarchie angeordnet werden.
Darüber hinaus lässt sich die Linkpopularität und der Pagerank einzelner Unterseiten durch eine entsprechende interne Verlinkung steuern. Analog gilt hier, dass wichtige Unterseiten entsprechend häufig von anderen (wichtigen) Unterseiten verlinkt werden können.
Verweistext eingehender Links
Die Auswertung der Verweistexte eingehender Links ist für Suchmaschinen eine Möglichkeit, festzustellen, zu welchen Themen die jeweils verlinkte Webseite Informationen bietet:
Kurze Beschreibungen des Inhalts einer Seite oder Site v finden sich oft im Text von Seiten u, die auf v verlinken. Der Text im „Anker“ kann besonders wichtig sein.
Für die Suchmaschinenoptimierung bedeutet das, dass das Sammeln von eingehenden Links nur dann zielführend ist, wenn die Verweistexte dieser Links die richtigen beschreibenden Worte enthalten, i. d. r. also diejenigen Suchbegriffe, für die die Webseite optimiert wird.
Maschinelles Lernen
Um das Maschinelle Lernen gab es in den letzten Jahren einen regelrechten Hype. Stark vereinfacht lässt sich maschinelles Lernen zum Ranking von Suchergebnissen nutzen, indem man einen selbst lernenden Algorithmus mit Suchanfragen und perfekt dazu passenden Suchergebnissen trainiert und das daraus errechnete Modell dann anschließend zum Ranking beliebiger Suchergebnisse nutzt. Die Trainingsdaten könnten z. B. aus Rankings bestehen, die von traditionellen Algorithmen erzeugt und anschließend von Menschen nachgebessert werden.
Ein grundsätzliches Problem stellt dabei die Tatsache dar, dass solche ML-Modelle wie eine Blackbox funktionieren. D. h. man wendet sie an und erhält ein Ergebnis, ohne genau zu wissen, wie das Ergebnis im Detail zustande gekommen ist. Wenn das Ergebnis, in diesem Fall also das Ranking der Suchergebnisse, nicht 100% perfekt ist, kann man nicht einfach diejenigen Details optimieren, die noch nicht gut genug sind. Alles, was man tun kann, ist, ein neues, anderes ML-Modell zu erstellen. In der Praxis spielt diese Feinjustierung der Ranking-Algorithmen jedoch eine wichtige Rolle. Google nimmt bspw. jedes Jahr hunderte kleiner Änderungen an seinen Algorithmen vor.
Amit Singhal, bis 2016 Head of Search bei Google, hat daher stets betont, dass Google keine Künstliche Intelligenz für das Ranking der Suchergebnisse einsetzt. 2016 hat dann John Giannandrea die Leitung der Google-Suche übernommen. Bis dahin wirkte John Giannandrea als Head of Artificial Intelligence im selben Unternehmen. Man kann daher davon ausgehen, dass Google seit 2016 auch beim Ranking der Suchergebnisse verstärkt auf Künstliche Intelligenz bzw. Maschinelles Lernen setzt.