Suchmaschinen-Spammer nervt mich

Discussion:

(zu alt für eine Antwort)

Christoph Schneegans

2012-09-17 22:36:57 UTC

Hallo allerseits!

Ich betreibe unter <http://schneegans.de/sv/> seit einigen Jahren
einen Dienst für die Validierung insbesondere von XHTML-Seiten.

Beim Überfliegen meiner Webserver-Logfiles habe ich festgestellt,
daß sich seit Mitte Juli die Zugriffszahlen etwa verzehnfacht haben.
Das liegt leider nicht an einem plötzlichen Bekanntheitsschub,
sondern offenbar an einem Suchmaschinen-Spammer.

Dieser ruft meinen Dienst mit einer Vielzahl von URLs aus hunderten
von Domänen auf. Diese URLs sind betont suchmaschinenfreundlich; sie
verwenden eine "sprechende" Domäne, der Pfad besteht fast immer aus
mehreren Wörtern getrennt durch '-', es gibt keine Dateierweiterung
und keinen Querystring.

Die Websites dahinter sind stets mit WordPress realisiert. Auf den
ersten Blick erscheint der Inhalt unauffällig, aber die
Textfragmente finden sich per Google fast immer gleich auf dutzenden
Websites.

Ich habe stichprobenartig die IP-Adressen untersucht, von denen die
Anfragen ausgehen; mehrheitlich gehören sie offenbar zu T-Online-
Einwahlzugängen.

Der Traffic, der bei mir anfällt, ist noch moderat, aber ich will
mir sowas trotzdem nicht gefallen lassen.

Was haben die davon, mich vollzumüllen? Mein Dienst erzeugt für die
Spammer-Seiten typischerweise eine Antwort, die ähnlich aussieht wie
<http://schneegans.de/sv/?url=http://www.stern.de/>. Insbesondere
erzeuge ich ja keine Links auf die übergebene Seite. Ich versuche
außerdem, Suchmaschinen aktiv von der Indexierung der Ergebnisseiten
abzuhalten, indem ich etwa

User-agent: Googlebot
Disallow: /sv/?url=

in der robots.txt notiert habe. Das scheint ganz gut zu
funktionieren.

Es fällt mir leider recht schwer, die unerwünschten Anfragen
algorithmisch zu erkennen; insbesondere wechselt der User-Agent-
Header häufig. Ich könnte nun jede unerwünschte Domäne einzeln
sperren, aber damit hätte ich wahrscheinlich mehr Arbeit als der
Spammer mit dem Aufsetzen einer weiteren Website...

Kennt jemand dieses Problem? Wie geht man damit am besten um?

--
<http://schneegans.de/computer/safer/> · SAFER mit Windows

Alexander Schestag

2012-09-17 23:35:28 UTC

Permalink

Hallo,

Post by Christoph Schneegans
Was haben die davon, mich vollzumüllen?

Sind das vielleicht Trackback-Spammer, die deinen Dienst für ein Blog
halten und versuchen, dort einen Trackback mit ihrem URL abzulassen? M.
E. spricht dafür, dass es sich ausschließlich um WordPress-Sites
handelt. Diese typischen Trackback-Spamseiten haben genau die von dir
beschriebene Struktur, mit fast immer gleichen Textfragmenten.

Grüße,

Alex

Christoph Schneegans

2012-11-02 21:43:53 UTC

Permalink

Post by Alexander Schestag

Post by Christoph Schneegans
Was haben die davon, mich vollzumüllen?

Sind das vielleicht Trackback-Spammer, die deinen Dienst für ein
Blog halten und versuchen, dort einen Trackback mit ihrem URL
abzulassen?

Sorry für die späte Antwort, ich hatte in den letzten Wochen andere
Sachen zu erledigen.

Ich habe außerdem per E-Mail die Empfehlung erhalten, alle HTTP-
Header zu protokollieren. Das habe ich jetzt ein paar Tage lang
gemacht, und in der Tat lassen sich die unerwünschten Anfragen
anhand der HTTP-Header recht zuverlässig erkennen.

Ich habe seitdem meine Logs nochmal gründlich studiert und die IP-
Adressen identifiziert, die die meisten Anfragen geschickt haben.
Offenbar gehören wirklich _alle_ zu T-Online-Einwahlzugängen, und
das finde ich schon erstaunlich. Ist es zweckmäßig, diese IP-
Adressen zusammen mit der Uhrzeit der Zugriffe an Abuse-Abteilung
der Telekom zu schicken? Reagieren die erfahrungsgemäß bei solchen
eher harmlosen Aktionen?

--
<http://schneegans.de/sv/> · Schema-Validator für XML