Discussion:
Was ist SiteBot?
(zu alt für eine Antwort)
Christoph Schneegans
2011-05-07 21:10:14 UTC
Permalink
Hallo allerseits!

Ein Crawler mit dem User-Agent-Header

Mozilla/5.0 (compatible; SiteBot/0.1; http://www.sitebot.org/robot/)

läuft seit Wochen auf meiner Site Amok, dummerweise habe ich es
erst heute bemerkt. Das Mistding fragt täglich tausende nicht
existierende URLs ab und läßt sich natürlich auch von

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

nicht beeindrucken.

<http://www.sitebot.org/> verrät praktisch überhaupt nichts. Weiß
jemand, wer dahinter steckt oder wo diese angeblich "carefully
collected links" verwendet werden?
--
<http://schneegans.de/web/kanonische-adressen/> · Gute URLs
Georg Roden
2011-05-07 23:11:10 UTC
Permalink
Post by Christoph Schneegans
<http://www.sitebot.org/> verrät praktisch überhaupt nichts.
Das ist wohl auch nicht gewollt:

| Registrant Name:Protected Domain Services - Customer ID: NEC-2677629

50.22.24.239 blocken hilft nicht?


Gruß, Georg
Kai Garlipp
2011-05-08 07:21:08 UTC
Permalink
Post by Georg Roden
Post by Christoph Schneegans
<http://www.sitebot.org/> verrät praktisch überhaupt nichts.
| Registrant Name:Protected Domain Services - Customer ID: NEC-2677629
50.22.24.239 blocken hilft nicht?
Warum soll man die Website blocken auf der diese inhaltslose Seite gehostet wird
(oder Bot selber kommt von einer ganz anderen IP-Adresse in der Ukraine)?

Bye Kai
Christoph Schneegans
2011-05-08 16:47:23 UTC
Permalink
Post by Georg Roden
Post by Christoph Schneegans
<http://www.sitebot.org/> verrät praktisch überhaupt nichts.
50.22.24.239 blocken hilft nicht?
Die robots.txt scheint er immerhin zu beachten, das soll erst
einmal reichen.
--
<http://schneegans.de/web/kanonische-adressen/> · Gute URLs
Juergen
2011-05-09 11:05:43 UTC
Permalink
Post by Christoph Schneegans
Post by Georg Roden
50.22.24.239 blocken hilft nicht?
Die robots.txt scheint er immerhin zu beachten, das soll erst
einmal reichen.
Wenn der Bot die robots.txt "beachtet", warum sprichst du dann von "Amok
laufen"?

Ich kann dir noch ne andere IP nennen, über die er auch kommt

213.186.122.3.utel.net.ua

Ob der Botname und die angegebene Webseite überhaupt stimmen? Ich hatte
gedacht, das gerade du das doch weisst... :-)

Bots, deren Homepage nix über sich selbst enthalten, stecken bei mir
konsequent in der htaccess.

Aus der Ukraine kommt auch gerne der MJ12bot.

Jürgen
Christoph Schneegans
2011-05-11 23:28:42 UTC
Permalink
Post by Juergen
Post by Christoph Schneegans
Die robots.txt scheint er immerhin zu beachten, das soll erst
einmal reichen.
Wenn der Bot die robots.txt "beachtet", warum sprichst du dann von
"Amok laufen"?
Das habe schon im ersten Posting erklärt.
Post by Juergen
Ob der Botname und die angegebene Webseite überhaupt stimmen?
Wenn ein Bot auf eine (wenn auch spärliche) Webseite verweist und
diese Website erklärt, wie man den Bot aussperrt, und sich der Bot
so tatsächlich aussperren läßt, dann dürfte das wohl alles seine
Richtigkeit haben.
Post by Juergen
Aus der Ukraine kommt auch gerne der MJ12bot.
Den habe ich bereits vor einiger Zeit per robots.txt gesperrt, und
auch der hält sich dran. Die robots.txt selbst fragt er täglich ab,
aber dafür ist sie ja da.
--
<http://schneegans.de/lv/> · Validator für BCP 47
Lesen Sie weiter auf narkive:
Loading...