Christoph Schneegans
2012-09-17 22:36:57 UTC
Hallo allerseits!
Ich betreibe unter <http://schneegans.de/sv/> seit einigen Jahren
einen Dienst für die Validierung insbesondere von XHTML-Seiten.
Beim Überfliegen meiner Webserver-Logfiles habe ich festgestellt,
daß sich seit Mitte Juli die Zugriffszahlen etwa verzehnfacht haben.
Das liegt leider nicht an einem plötzlichen Bekanntheitsschub,
sondern offenbar an einem Suchmaschinen-Spammer.
Dieser ruft meinen Dienst mit einer Vielzahl von URLs aus hunderten
von Domänen auf. Diese URLs sind betont suchmaschinenfreundlich; sie
verwenden eine "sprechende" Domäne, der Pfad besteht fast immer aus
mehreren Wörtern getrennt durch '-', es gibt keine Dateierweiterung
und keinen Querystring.
Die Websites dahinter sind stets mit WordPress realisiert. Auf den
ersten Blick erscheint der Inhalt unauffällig, aber die
Textfragmente finden sich per Google fast immer gleich auf dutzenden
Websites.
Ich habe stichprobenartig die IP-Adressen untersucht, von denen die
Anfragen ausgehen; mehrheitlich gehören sie offenbar zu T-Online-
Einwahlzugängen.
Der Traffic, der bei mir anfällt, ist noch moderat, aber ich will
mir sowas trotzdem nicht gefallen lassen.
Was haben die davon, mich vollzumüllen? Mein Dienst erzeugt für die
Spammer-Seiten typischerweise eine Antwort, die ähnlich aussieht wie
<http://schneegans.de/sv/?url=http://www.stern.de/>. Insbesondere
erzeuge ich ja keine Links auf die übergebene Seite. Ich versuche
außerdem, Suchmaschinen aktiv von der Indexierung der Ergebnisseiten
abzuhalten, indem ich etwa
User-agent: Googlebot
Disallow: /sv/?url=
in der robots.txt notiert habe. Das scheint ganz gut zu
funktionieren.
Es fällt mir leider recht schwer, die unerwünschten Anfragen
algorithmisch zu erkennen; insbesondere wechselt der User-Agent-
Header häufig. Ich könnte nun jede unerwünschte Domäne einzeln
sperren, aber damit hätte ich wahrscheinlich mehr Arbeit als der
Spammer mit dem Aufsetzen einer weiteren Website...
Kennt jemand dieses Problem? Wie geht man damit am besten um?
Ich betreibe unter <http://schneegans.de/sv/> seit einigen Jahren
einen Dienst für die Validierung insbesondere von XHTML-Seiten.
Beim Überfliegen meiner Webserver-Logfiles habe ich festgestellt,
daß sich seit Mitte Juli die Zugriffszahlen etwa verzehnfacht haben.
Das liegt leider nicht an einem plötzlichen Bekanntheitsschub,
sondern offenbar an einem Suchmaschinen-Spammer.
Dieser ruft meinen Dienst mit einer Vielzahl von URLs aus hunderten
von Domänen auf. Diese URLs sind betont suchmaschinenfreundlich; sie
verwenden eine "sprechende" Domäne, der Pfad besteht fast immer aus
mehreren Wörtern getrennt durch '-', es gibt keine Dateierweiterung
und keinen Querystring.
Die Websites dahinter sind stets mit WordPress realisiert. Auf den
ersten Blick erscheint der Inhalt unauffällig, aber die
Textfragmente finden sich per Google fast immer gleich auf dutzenden
Websites.
Ich habe stichprobenartig die IP-Adressen untersucht, von denen die
Anfragen ausgehen; mehrheitlich gehören sie offenbar zu T-Online-
Einwahlzugängen.
Der Traffic, der bei mir anfällt, ist noch moderat, aber ich will
mir sowas trotzdem nicht gefallen lassen.
Was haben die davon, mich vollzumüllen? Mein Dienst erzeugt für die
Spammer-Seiten typischerweise eine Antwort, die ähnlich aussieht wie
<http://schneegans.de/sv/?url=http://www.stern.de/>. Insbesondere
erzeuge ich ja keine Links auf die übergebene Seite. Ich versuche
außerdem, Suchmaschinen aktiv von der Indexierung der Ergebnisseiten
abzuhalten, indem ich etwa
User-agent: Googlebot
Disallow: /sv/?url=
in der robots.txt notiert habe. Das scheint ganz gut zu
funktionieren.
Es fällt mir leider recht schwer, die unerwünschten Anfragen
algorithmisch zu erkennen; insbesondere wechselt der User-Agent-
Header häufig. Ich könnte nun jede unerwünschte Domäne einzeln
sperren, aber damit hätte ich wahrscheinlich mehr Arbeit als der
Spammer mit dem Aufsetzen einer weiteren Website...
Kennt jemand dieses Problem? Wie geht man damit am besten um?
--
<http://schneegans.de/computer/safer/> · SAFER mit Windows
<http://schneegans.de/computer/safer/> · SAFER mit Windows