Suchmaschinenspam
Der Begriff Spam bezeichnet ursprünglich unerwünschte Emails. Analog bezeichnet der Begriff Suchmaschinenspam unerwünschte Suchergebnisse, wobei die genaue Definition vom jeweiligen Blickwinkel abhängt. Für die Suchmaschinenoptimierung ist v. a. die Sicht der Suchmaschinenbetreiber relevant. Google nennt bspw. explizit Vorgehensweisen bei der Suchmaschinenoptimierung, die nicht geduldet und damit als Spam betrachtet werden. Google und wohl auch alle anderen Suchmaschinenbetreiber haben mittlerweile Gegenmaßnahmen eingeleitet, die Spam i. d. R. anhand bestimmter statistischer Merkmale automatisch aussortieren. Ziel der Suchmaschinenoptimierung ist es daher, die Optimierungen so durchzuführen, dass sie nicht von den Spamfiltern der Suchmaschinen erfasst werden.
Dubletten (Duplicate Content)
Bei Dubletten (engl. „duplicate content“) kann es sich um ganze Dokumente handeln, die auf mehreren Webseiten vorhanden sind, oder um Teile eines Dokuments, die in mehreren Dokumenten identisch sind. Darüber hinaus kann es durch eine bestimmte Serverkonfiguration dazu kommen, das komplette Webseiten unter mehreren Domains erreichbar sind. Auf Dokumentenebene kommt es insbesondere bei datenbankgestützten Webseiten häufig dazu, dass ein Dokument unter mehreren URLs abrufbar ist.
Dubletten sind nicht zwingend als Spam einzuordnen. Dennoch haben Suchmaschinen kein Interesse daran, innerhalb einer Ergebnisliste Dokumente mit (teilweise) identischen Inhalten zu listen.
Für die Suchmaschinenoptimierung ergeben sich daraus zwei Konsequenzen. Zum einen sollten keine Dokumente oder Dokumentteile von anderen Webseiten unverändert übernommen werden. Zum anderen kann es unter bestimmten Umständen zu Problemen kommen, wenn andere Webmaster Inhalte übernehmen. Darüber hinaus ist auf eine Konfiguration der Webseite bzw. des Servers zu achten, die verhindert, dass dieselben Inhalte unter mehr als einer URL abrufbar sind. Da das nicht immer möglich ist, hat der Suchmaschinenbetreiber Google das so genannte Canonical-Tag eingeführt, mit dem Webmaster durch eine Meta-Angabe innerhalb des Dokuments die bevorzugte URL festlegen können:
Sie können einfach dieses <link>-Tag in den <head>-Abschnitt der doppelten Inhalts-URLs einfügen, um die von Ihnen bevorzugte Version anzugeben, damit Google erkennt, dass die doppelten Inhalte alle auf die kanonische URL verweisen. Dabei werden auch URL-Eigenschaften wie PageRank und ähnliche Werte übernommen. Alle Suchmaschinen berücksichtigen diesen Standard beim Crawlen und Indizieren Ihrer Website.
Unnatürliche Verteilung der Verweistexte
Die Verweistexte eingehender Links sind ein wichtiges Ranking-Kriterium. Dabei gehen die Suchmaschinenbetreiber davon aus, dass ein Webmaster, der einen Link auf eine andere Webseite setzt, den Verweistext selbst wählt. Nur auf Grundlage dieser Annahme macht eine Einbeziehung der Verweistexte in das Ranking aus Sicht der Suchmaschinenbetreiber Sinn. Eine so zustande gekommene, „natürliche“ Verlinkungsstruktur weist in der Regel eine gewisse Streuung bei der Wahl der Linktexte auf. Es ist unwahrscheinlich, dass eine große Zahl an Webmastern exakt denselben Verweistext wählen.
Ankertexte werden von Suchmaschinenoptimierern oft massenhaft und homogen erzeugt, um das Ranking des Zieldokuments für die in den Ankertexten vorkommenden Begriffe zu verbessern. Häufen sich plötzlich die gleichen Ankertexte oder lassen sich verdächtige Texte ausmachen, kann das Zieldokument entsprechend schlechter gerankt werden.
Bei der Suchmaschinenoptimierung gilt es demnach einen Kompromiss zu finden, bei dem einerseits Verweistexte zum Einsatz kommen, die für das angestrebte Ranking förderlich sind und gleichzeitig eine „natürlich“ wirkende Verteilung verschiedener Verweistexte zu erhalten.
Unnatürliche Verlinkungsstruktur
Was für die Verteilung der Linktexte gilt, gilt auch für die Verteilung der Links als solche. Sowohl was die Verteilung über verschiedene Server betrifft, als auch im Hinblick auf die zeitliche Dimension. Wenn mit einem Schlag sehr viele Seiten auf ein und dieselbe Seite verweisen, kann man davon ausgehen, dass es sich um einen Spam-Versuch handelt.
Der Linkaufbau sollte bei der Suchmaschinenoptimierung also nach Möglichkeit kontinuierlich erfolgen, um nicht in Spam-Verdacht zu geraten.
Inhaltliche Änderungen
Während die regelmäßige Aktualisierung einer Webseite eher positive Effekte hat, können grundlegende Änderungen der inhaltlichen Ausrichtung Anlass für Suchmaschinen sein, die Bewertung einer Webseite ebenso grundlegend neu vorzunehmen. Eingehende Links werden von Suchmaschinen häufig als Empfehlung bewertet. Eine solche Empfehlung bezieht sich jedoch in der Regel auf den Inhalt einer Webseite zum Zeitpunkt der Linksetzung.
Entwertete Links
Dass Suchmaschinen nicht jeden Link gleich bewerten, geht aus den oben vorgestellten Verfahren zur Einbeziehung der Linktopologie in das Ranking hervor. Es gibt jedoch einige Arten von Links, die nicht zur Qualitätsbewertung der verlinkten Seite geeignet sind. Dabei handelt es sich um Links, die nicht vom Webmaster einer Webseite bzw. deren Redakteure gesetzt wurden, sondern bspw. über ein HTML-Formular von jedermann eingetragen werden können. Darunter fallen bspw. nicht-redaktionell gepflegte Webkataloge. In einem offiziellen Blog von Google heißt es dazu bspw.:
„In Google arbeiten wir ständig daran, unseren Usern Content von hoher Qualität anzubieten. Sehr viele Webverzeichnisse erfüllen jedoch diesen Qualitätsstandard leider nicht und bieten unseren Usern keinen entsprechend guten Content an (…).Falls ihr dafür bezahlt, in möglichst vielen Verzeichnissen ungeachtet ihrer Qualität gelistet zu sein, könnte dies ein schlechtes Licht auf eure Site werfen.“
Es kann davon ausgegangen werden, dass auch andere Arten von Links von Google und anderen Suchmaschinenbetreibern ähnlich behandelt werden. Darunter fallen insbesondere Links von „Mitmach-Seiten“ wie Social Bookmarks, Wikis, oder Links aus Weblog-Kommentaren, bei denen Links selbst eingetragen werden können. Grundsätzlich sind alle Links betroffen, die nicht als Empfehlung gelten können. Zu den genannten kommen noch Links, die gegen Bezahlung gesetzt wurden, sowie getauschte Links, d. h. Links für die der Webmaster der verlinkten Seite im Gegenzug ebenfalls einen Link gesetzt hat.
Viele Webseiten, bei denen Nutzer Inhalte beitragen können, haben selbst mit Spam zu kämpfen, da viele Suchmaschinenoptimierer dort zahlreiche Links eintragen, die inhaltlich nicht unbedingt erwünscht sind. Zu diesem Zweck haben die großen Suchmaschinenbetreiber das so genannte Nofollow-Tag eingeführt (vgl. oben), mit dem die Webmaster der von Spam betroffenen Seiten diese Art von Links gezielt kennzeichnen können. So gekennzeichnete Links werden dann von den Suchmaschinen nicht mehr ausgewertet, so dass der Anreiz für Suchmaschinenoptimierer wegfällt. Darüber hinaus kann davon ausgegangen werden, dass Suchmaschinen derartige Links auch dann zu erkennen versuchen, wenn sie nicht speziell gekennzeichnet sind:
Denken Sie daran, dass Links von geringer Qualität selten lange bestehen und relativ schnell aus Googles Linkgraph verschwinden können. Möglicherweise werden sie sogar bereits von Googles Algorithmen abgewertet.
Wie weit die technischen Möglichkeiten dabei mittlerweile gehen, ist jedoch nicht im Detail bekannt.
Versteckte Inhalte und Links
Die meisten modernen Webseiten bestehen nicht nur aus HTML-Code. Dieser liefert zumeist lediglich die Struktur einer Webseite, das Aussehen wird dagegen mit Hilfe von Cascading Style Sheets (CSS) angepasst. Die Crawler von Suchmaschinen sind jedoch nicht am Aussehen einer Seite interessiert und arbeiten daher in der Regel ausschließlich mit dem HTML-Code. Das machen sich einige Suchmaschinenoptimierer zu Nutze und verstecken durch den Einsatz von CSS Inhalte und Links, die nur zu Zwecken der Suchmaschinenoptimierung eingebaut wurden, vor den Augen der menschlichen Besucher.
Da das natürlich nicht im Sinne der Suchmaschinenbetreiber ist, haben diese entsprechende Gegenmaßnahmen zur Erkennung solcher Praktiken entwickelt:
Unsichtbarer Text wird erstellt, indem die Textfarbe identisch mit der Hintergrundfarbe des Dokuments gewählt wird. Der Benutzer kann den Text nur sehen, wenn er die entsprechende Stelle mit der Maus markiert. Bei der Analyse eines Textes können die IR-Systeme der Suchmaschinen diesen Spam-Versuch erkennen, indem sie die Definitionen des Textes und die Hintergrundfarbe des HTML-Codes vergleichen.
Zwar gibt es wiederum Möglichkeiten, die Erkennung derartiger Methoden zu erschweren, allerdings kann davon ausgegangen werden, dass die Betreiber der großen Suchmaschinen ihre Algorithmen ebenfalls ständig weiter verfeinern, da solche Spam-Methoden die Ergebnisqualität der Suchmaschinen bei Nicht-Erkennung stark beeinträchtigen.
Eine gebräuchliche Variante von versteckten Links sind so genannte Footerlinks. Das sind Links, die in der Fußzeile (engl. Footer) eines HTML-Dokuments gesetzt werden, die meist optisch vom Rest der Seite abgesetzt ist und daher von den Besuchern einer Webseite kaum beachtet wird. Solche Links werden von Suchmaschinen in der Regel recht schnell erkannt und fließen nicht in die Berechnung des PageRanks ein. Für die Suchmaschinenoptimierung bedeutet das zum einen, dass beim Linkaufbau auf Footerlinks nach Möglichkeit zugunsten von prominenter platzierten Links verzichtet werden sollte. Zum anderen besteht bei gut gerankten Webseiten, deren Backlinks überwiegend aus Footerlinks bestehen, die Gefahr, dass diese zunehmend von Suchmaschinen erkannt werden, was ein Absinken der Suchmaschinenpositionen zur Folge haben kann.
Cloaking und Brückenseiten
Eine noch weitergehende Möglichkeit, Suchmaschinencrawlern Inhalte zu liefern, die für menschliche Besucher nicht sichtbar sind, ist das so genannte Cloaking (dt. Maskieren):
Unter Cloaking versteht man die Praxis, Nutzern und Suchmaschinen unterschiedliche Inhalte oder URLs zu präsentieren. Einige Beispiele für Cloaking sind:
- Bereitstellung einer Seite mit HTML-Text für Suchmaschinen, während den Benutzern eine Seite mit Bildern oder anderen Inhalten angezeigt wird.
- Suchmaschinen werden andere Inhalte angezeigt als den Benutzern.
Cloaking wird häufig mit Hilfe einer serverseitigen Einstellung vorgenommen, die abhängig vom User Agent oder der IP-Adresse andere Inhalte ausliefert. Eine weitere Möglichkeit, Cloaking zu betreiben ist es, eine Javascript-Weiterleitung einzusetzen. Menschliche Besucher der Webseite werden unmittelbar nach dem Aufrufen der Seite zu einer anderen Webseite umgeleitet. Da die meisten Suchmaschinencrawler keinen Javascript-Code interpretieren, bleibt ihnen diese Weiterleitung vorenthalten. Häufig werden dazu spezielle suchmaschinenoptimierte HTML-Seiten, so genannte Brückenseiten oder Doorway Pages, eingesetzt, deren einziger Zweck darin besteht, in Suchmaschinen gut zu ranken und Suchmaschinennutzer, die über die Suchergebnislisten auf diese Seite kommen, weiterzuleiten.
Verständlicherweise arbeiten Suchmaschinenbetreiber ständig daran, solche Betrugsversuche zu erkennen und ggf. zu bestrafen (vgl. unten). Aus diesem Grund sind derartige Techniken für eine langfristig angelegte Suchmaschinenoptimierung ungeeignet.
Malware
Der Suchmaschinenbetreiber Google überprüft alle indexierten Webseiten daraufhin, ob sie Software oder Inhalte enthalten, deren Ziel es ist, den Nutzern der Webseite zu schaden:
Google verwendet automatische Algorithmen und Nutzerfeedback, um Listen von Websites zu erstellen, die eine Gefahr darstellen könnten. Zwei Haupttypen von gefährlichen Websites auf unseren Listen sind Phishing-Sites und Malware-Sites.
Davon betroffen sind keinesfalls nur Webseiten, die von zwielichtigen Webmastern erstellt wurden. Häufig kommt es insbesondere bei der Verwendung von Standard-Content-Management-Systemen dazu, dass Webseiten gehackt und zur Verbreitung gefährlicher Inhalte missbraucht werden. Für die Suchmaschinenoptimierung bedeutet das, dass neben einer regelmäßigen Aktualisierung des eingesetzten CMS auch eine regelmäßige Überprüfung auf der zu optimierenden Webseite erfolgen sollte, ob sie möglicherweise Opfer eines Angriffs geworden ist.
Bestrafung von Spam-Versuchen
Der Suchmaschinenbetreiber Google hat eine Reihe von Richtlinien für Webmaster aufgestellt, die den Inhalt, die Technik und die Qualität von Webseiten betreffen. Während die inhaltlichen und technischen Richtlinien eher den Status von unverbindlichen Empfehlungen haben, fordert Google die Einhaltung der Qualitätsrichtlinien von allen Webmastern ein und droht bei Nichtbeachtung mit Strafen:
Selbst wenn Sie sich dafür entscheiden, keinen dieser Vorschläge umzusetzen, empfehlen wir Ihnen dringend, die „Qualitätsrichtlinien“ genau zu beachten, in denen einige der unerlaubten Praktiken aufgeführt sind, die dazu führen können, dass eine Website vollständig aus dem Google-Index entfernt oder anderweitig abgestraft wird. Wenn eine Website bestraft wurde, wird sie möglicherweise nicht mehr in den Ergebnissen auf Google.com oder auf einer der Partnerseiten von Google angezeigt.
Googles Qualitätsrichtlinien enthalten neben der allgemeinen Empfehlung, hochwertige Inhalte bereitzustellen und auf Tricks bei der Suchmaschinenoptimierung zu verzichten, folgende konkrete Anweisungen:
- Beteiligen Sie sich nicht an Linkprogrammen, die darauf abzielen, das Ranking oder den PageRank Ihrer Website zu erhöhen.
- Benutzen Sie keine unautorisierten Computerprogramme, um Seiten anzumelden, Rankings zu überprüfen, usw.
- Vermeiden Sie versteckten Text oder versteckte Links.
- Verwenden Sie kein Cloaking oder hinterhältige Weiterleitungen.
- Senden Sie keine automatisierten Abfragen an Google.
- Laden Sie keine Seiten mit irrelevanten Keywords.
- Erstellen Sie nicht mehrere Seiten, Subdomains oder Domains mit wesentlich doppeltem Inhalt.
- Erstellen Sie keine Seiten mit bösartigem Verhalten, wie Phishing oder die Installation von Viren, Trojanern oder anderer Badware.
- Vermeiden Sie „Doorway“-Seiten, die nur für Suchmaschinen erstellt werden, oder andere „Cookie-Cutter“-Ansätze wie Partnerprogramme mit wenig oder gar keinem Originalinhalt.
Neben den oben erläuterten Spam-Techniken wird darauf hingewiesen, die Google-Suche nicht automatisch abzufragen und keine unauthorisierten Programme zur Abfrage zu nutzen. Darüber hinaus untersagt Google die Teilnahme an Linksystemen. Diese werden an anderer Stelle näher erläutert:
Beispiele für Verknüpfungssysteme können sein:
- Links zu Web-Spammern oder schlechten Gegenden im Web
- Übermäßige wechselseitige Links oder übermäßiger Linktausch („Verlinke zu mir und ich verlinke zu dir.“)
- Kauf oder Verkauf von Links, die PageRank weitergeben
Google verbietet demnach ausdrücklich das Kaufen und Verkaufen von Links, sowie „exzessiven“ Linktausch. Ebenso verboten sind Links zu Spam-Seiten und Seiten, die eine so genannte „bad neighborhood“ darstellen. Google überträgt hier den Begriff der Nachbarschaft auf Webseiten, wobei eine Webseite sich in schlechte Nachbarschaft begibt, wenn sie zu Webseiten linkt, die nicht Googles Qualitätsrichtlinien entsprechen.