Discussion:
Wie werden Anfragen nach indizierten aber ungecachten Seiten beantwortet?
(zu alt für eine Antwort)
Tilo Baumann
2010-06-17 19:25:11 UTC
Permalink
Meine Webseiten werden teilweise von Suchmaschinen gelistet. Manche
dieser Seiten befinden sich im Cache der Suchmaschine. Andere sind
gelistet, befinden sich aber nicht im Cache.

Welchen Teil/Inhalt meiner Seiten hat die Suchmaschine in diesem Fall
gespeichert, um Suchanfragen zu beantworten?

Also: bei gecachten Seiten kann ich alles zu dieser Seite erfragen (auch
Teilstrings) und kann mit einer angemessenen Antwort rechnen.

Mit welchen Antworten kann ich bei ungecachten Seiten rechnen?


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Christoph Schneegans
2010-06-19 13:55:26 UTC
Permalink
Post by Tilo Baumann
Mit welchen Antworten kann ich bei ungecachten Seiten rechnen?
Du überschätzt m.E. die Bedeutung von Caches. Wenn eine Internet-
Suchmaschine Anfragen in akzeptabler Zeit beantworten will, kann sie
es sich nicht leisten, die originalen Dokumente zu durchsuchen,
sondern muß auf ihren Index zurückgreifen. Der Index enthält eine
Liste von Wörtern (oder Wortstämmen), die in einem Dokument
vorkommen. Selbst die Suche nach Phrasen (mehrere Begriffe in
Anführungszeichen) dürfte sich aus dem Index beantworten lassen.

Bei welchen Suchmaschinen glaubst du, nach Teilen von Wörtern suchen
zu können? Bei Google geht das jedenfalls nicht, egal ob im Cache
oder nicht.
--
<http://schneegans.de/usenet/mids/> · Postings verlinken
Tilo Baumann
2010-06-19 18:57:29 UTC
Permalink
Post by Christoph Schneegans
Post by Tilo Baumann
Mit welchen Antworten kann ich bei ungecachten Seiten rechnen?
Du überschätzt m.E. die Bedeutung von Caches. Wenn eine Internet-
Suchmaschine Anfragen in akzeptabler Zeit beantworten will, kann sie
es sich nicht leisten, die originalen Dokumente zu durchsuchen,
sondern muß auf ihren Index zurückgreifen. Der Index enthält eine
Liste von Wörtern (oder Wortstämmen), die in einem Dokument
vorkommen. Selbst die Suche nach Phrasen (mehrere Begriffe in
Anführungszeichen) dürfte sich aus dem Index beantworten lassen.
Bei Google sehe ich die Wirkung doppelter Anführungszeichen in
wörtlicher Wiedergabe (eventuell abgeschwächt durch einige läßliche
Äquivalenzen wie ß=ss u.ä.)

Dort kann ich bei gecachten Seiten erfolgreich nach längeren Sätzen
suchen.

Google hat 12/19 = 63% meiner indizierten Seiten gecacht.
Post by Christoph Schneegans
Bei welchen Suchmaschinen glaubst du, nach Teilen von Wörtern suchen
zu können? Bei Google geht das jedenfalls nicht, egal ob im Cache
oder nicht.
Yahoo hat deutlich mehr Seiten als Google von mir indiziert, aber einen
viel kleineren Teil davon gecacht. Eine weitere Besonderheit Yahoos
ist, daß etliche meiner Seiten bei Yahoo als gecacht markiert aber in
Wirklichkeit nicht gecacht sind. Das merkt man beim Aufrufen des
Caches.

Andere Suchmaschinen als Google und Yahoo habe ich kaum betrachtet.

Mir geht es beim Gefundenwerden weniger um Wortteile als um Strings aus
mehreren Wörtern, also um Satz- oder gar Absatzteile, und ich habe
Schwierigkeiten, mir vorzustellen, wie eine Suchmaschine solche Teile in
nichtgecachten Seiten findet.


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Peter J. Holzer
2010-06-19 21:08:58 UTC
Permalink
Post by Tilo Baumann
Post by Christoph Schneegans
Post by Tilo Baumann
Mit welchen Antworten kann ich bei ungecachten Seiten rechnen?
Du überschätzt m.E. die Bedeutung von Caches. Wenn eine Internet-
Suchmaschine Anfragen in akzeptabler Zeit beantworten will, kann sie
es sich nicht leisten, die originalen Dokumente zu durchsuchen,
sondern muß auf ihren Index zurückgreifen. Der Index enthält eine
Liste von Wörtern (oder Wortstämmen), die in einem Dokument
vorkommen. Selbst die Suche nach Phrasen (mehrere Begriffe in
Anführungszeichen) dürfte sich aus dem Index beantworten lassen.
Bei Google sehe ich die Wirkung doppelter Anführungszeichen in
wörtlicher Wiedergabe (eventuell abgeschwächt durch einige läßliche
Äquivalenzen wie ß=ss u.ä.)
Wortgrenzen, Interpunktion, etc. werden m.W. auch ignoriert.
„"a b"“ ist IMHO äquivalent zu „a.b“.
Post by Tilo Baumann
Dort kann ich bei gecachten Seiten erfolgreich nach längeren Sätzen
suchen.
Google hat 12/19 = 63% meiner indizierten Seiten gecacht.
Post by Christoph Schneegans
Bei welchen Suchmaschinen glaubst du, nach Teilen von Wörtern suchen
zu können? Bei Google geht das jedenfalls nicht, egal ob im Cache
oder nicht.
Yahoo hat deutlich mehr Seiten als Google von mir indiziert, aber einen
viel kleineren Teil davon gecacht.
Worin unterscheiden sich die von den gecachten? Soweit ich sehe, gibt es
ziemlich genau zwei Gründe, warum den Link "im Cache" nicht im
Suchresult anbietet:

1) Das Dokument ist nicht HTML, sondern irgendwas anderes (PDF, Word,
...)
2) Das Dokument enthält <meta name="robots" content="noarchive">
Post by Tilo Baumann
Mir geht es beim Gefundenwerden weniger um Wortteile als um Strings aus
mehreren Wörtern, also um Satz- oder gar Absatzteile, und ich habe
Schwierigkeiten, mir vorzustellen, wie eine Suchmaschine solche Teile in
nichtgecachten Seiten findet.
Ich bin mir ziemlich sicher, dass Google alle Dokumente im Volltext
speichert. Man sieht ja auch Ausschnitte aus dem Text im Suchergebnis.
Nur wird der Volltext dem Suchenden nicht zum Download angeboten, wenn
das entweder der Seiteninhaber verboten hat (robots noarchive) oder wenn
es nicht HTML ist.

hp
Tilo Baumann
2010-06-20 07:47:08 UTC
Permalink
Post by Peter J. Holzer
Post by Tilo Baumann
Bei Google sehe ich die Wirkung doppelter Anführungszeichen in
wörtlicher Wiedergabe (eventuell abgeschwächt durch einige läßliche
Äquivalenzen wie ß=ss u.ä.)
Wortgrenzen, Interpunktion, etc. werden m.W. auch ignoriert.
?"a b"? ist IMHO äquivalent zu ?a.b?.
Bei mir erscheint dein "a b" durch ? (Fragezeichen) eingerahmt. Da du
in utf-8 schreibst, ich aber auf iso-8859-1 eingerichtet bin, bin ich
mir deiner Aussage nicht sicher. Sind die ? als Begrenzer gemeint? Ist
der . (Punkt) zwischen a und b literal zu verstehen?
Post by Peter J. Holzer
Post by Tilo Baumann
Google hat 12/19 = 63% meiner indizierten Seiten gecacht.
Yahoo hat deutlich mehr Seiten als Google von mir indiziert, aber einen
viel kleineren Teil davon gecacht.
Worin unterscheiden sich die von den gecachten? Soweit ich sehe, gibt es
ziemlich genau zwei Gründe, warum den Link "im Cache" nicht im
1) Das Dokument ist nicht HTML, sondern irgendwas anderes (PDF, Word,
...)
2) Das Dokument enthält <meta name="robots" content="noarchive">
Meine Seiten sind HTML und erlauben Archivierung. Eine Regelmäßigkeit
ist mir bisher nicht aufgefallen, nach der die Suchmaschine zwischen
Cachen und Nichtcachen unterscheidet. Meine Datenbasis ist allerdings
klein.
Post by Peter J. Holzer
Post by Tilo Baumann
Mir geht es beim Gefundenwerden weniger um Wortteile als um Strings aus
mehreren Wörtern, also um Satz- oder gar Absatzteile, und ich habe
Schwierigkeiten, mir vorzustellen, wie eine Suchmaschine solche Teile in
nichtgecachten Seiten findet.
Ich bin mir ziemlich sicher, dass Google alle Dokumente im Volltext
speichert. Man sieht ja auch Ausschnitte aus dem Text im Suchergebnis.
Nur wird der Volltext dem Suchenden nicht zum Download angeboten, wenn
das entweder der Seiteninhaber verboten hat (robots noarchive) oder wenn
es nicht HTML ist.
Die Vermutung, daß Google vollständig speichert, ist interessant. Wenn
sie zutrifft, ist meine Frage beantwortet, ob/wie Google ganze
(Ab-)Satzteile finden. Es bliebe die Frage danach, warum manche Seiten
nicht als gecacht gekennzeichnet sind, ohne daß dafür einer deiner
beiden Gründe oben vorliegt.

Hast du auch eine Vermutung für Yahoo?


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Peter J. Holzer
2010-06-20 21:36:54 UTC
Permalink
Post by Tilo Baumann
Post by Peter J. Holzer
Post by Tilo Baumann
Bei Google sehe ich die Wirkung doppelter Anführungszeichen in
wörtlicher Wiedergabe (eventuell abgeschwächt durch einige läßliche
Äquivalenzen wie ß=ss u.ä.)
Wortgrenzen, Interpunktion, etc. werden m.W. auch ignoriert.
?"a b"? ist IMHO äquivalent zu ?a.b?.
Bei mir erscheint dein "a b" durch ? (Fragezeichen) eingerahmt. Da du
in utf-8 schreibst, ich aber auf iso-8859-1 eingerichtet bin, bin ich
mir deiner Aussage nicht sicher. Sind die ? als Begrenzer gemeint?
Ja, das waren deutsche Anführungszeichen.
Post by Tilo Baumann
Ist der . (Punkt) zwischen a und b literal zu verstehen?
Ja, zwei durch Punkt getrennte Begriffe müssen bei Google unmittelbar
hintereinder vorkommen. Die Behauptung, dass das äquivalent zu
Anführungszeichen sei, nehme ich aber zurück: Ich habe das jetzt mit
einigen Wort-Paaren getestet und mit Punkt jeweils deutlich mehr
Ergebnisse bekommen als mit Anführungszeichen. Was genau der Unterschied
ist, konnte ich anhand der Ergebnisse nicht feststellen, aber der Punkt
ist offensichtlich liberaler.
Post by Tilo Baumann
Post by Peter J. Holzer
Post by Tilo Baumann
Google hat 12/19 = 63% meiner indizierten Seiten gecacht.
Yahoo hat deutlich mehr Seiten als Google von mir indiziert, aber einen
viel kleineren Teil davon gecacht.
Worin unterscheiden sich die von den gecachten? Soweit ich sehe, gibt es
ziemlich genau zwei Gründe, warum den Link "im Cache" nicht im
1) Das Dokument ist nicht HTML, sondern irgendwas anderes (PDF, Word,
...)
2) Das Dokument enthält <meta name="robots" content="noarchive">
Meine Seiten sind HTML und erlauben Archivierung. Eine Regelmäßigkeit
ist mir bisher nicht aufgefallen, nach der die Suchmaschine zwischen
Cachen und Nichtcachen unterscheidet. Meine Datenbasis ist allerdings
klein.
Wenn Du die Seiten nennst, kann man sich die ansehen. Vielleicht fällt
jemandem was auf. Ohne konkretes Beispiel kann man ja nicht einmal
spekulieren.

hp
Tilo Baumann
2010-06-21 08:08:46 UTC
Permalink
Post by Peter J. Holzer
Wenn Du die Seiten nennst, kann man sich die ansehen. Vielleicht fällt
jemandem was auf. Ohne konkretes Beispiel kann man ja nicht einmal
spekulieren.
site:eene.mine.nu


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Peter J. Holzer
2010-06-21 09:26:18 UTC
Permalink
Post by Tilo Baumann
Post by Peter J. Holzer
Wenn Du die Seiten nennst, kann man sich die ansehen. Vielleicht fällt
jemandem was auf. Ohne konkretes Beispiel kann man ja nicht einmal
spekulieren.
site:eene.mine.nu
Hmm. Da fällt mir wirklich nichts auf, was die gecachten von den
ungecachten Seiten unterscheidet.

hp
Tilo Baumann
2010-06-22 09:20:41 UTC
Permalink
Post by Peter J. Holzer
Post by Tilo Baumann
site:eene.mine.nu
Hmm. Da fällt mir wirklich nichts auf, was die gecachten von den
ungecachten Seiten unterscheidet.
Danke für den Versuch!


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Andreas Prilop
2010-06-23 15:52:44 UTC
Permalink
User-Agent: slrn/0.9.8.1 (Debian)
Bei mir erscheint dein "a b" durch ? (Fragezeichen) eingerahmt.
Da du in utf-8 schreibst, ich aber auf iso-8859-1 eingerichtet bin,
bin ich mir deiner Aussage nicht sicher.
Dann frag mal in <news:de.comm.software.newsreader> nach, was
Du einstellen kannst, damit Du wenigstens ein Eurozeichen =80
richtig schreiben und lesen kannst.

--=20
Ich bin f=FCr die Gleichberechtigung: Moslems sollen in Deutschland
die gleichen Rechte haben wie Christinnen in Saudi-Arabien.
Tilo Baumann
2010-06-23 17:13:05 UTC
Permalink
Post by Andreas Prilop
User-Agent: slrn/0.9.8.1 (Debian)
Bei mir erscheint dein "a b" durch ? (Fragezeichen) eingerahmt.
Da du in utf-8 schreibst, ich aber auf iso-8859-1 eingerichtet bin,
bin ich mir deiner Aussage nicht sicher.
Dann frag mal in <news:de.comm.software.newsreader> nach, was
Du einstellen kannst, damit Du wenigstens ein Eurozeichen ?
richtig schreiben und lesen kannst.
Sollte ich das auch dann tun, wenn ich für die Wiedereinführung der DM
bin?

Was bei mir als ? erscheint, wurde beim Autor des Postings als
Anführungszeichen geschrieben. Was nutzen da Euros?


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Simon Krahnke
2010-06-23 17:43:19 UTC
Permalink
Post by Tilo Baumann
Post by Andreas Prilop
User-Agent: slrn/0.9.8.1 (Debian)
Bei mir erscheint dein "a b" durch ? (Fragezeichen) eingerahmt.
Da du in utf-8 schreibst, ich aber auf iso-8859-1 eingerichtet bin,
bin ich mir deiner Aussage nicht sicher.
Dann frag mal in <news:de.comm.software.newsreader> nach, was
Du einstellen kannst, damit Du wenigstens ein Eurozeichen ?
richtig schreiben und lesen kannst.
Sollte ich das auch dann tun, wenn ich für die Wiedereinführung der DM
bin?
Nein, gegen Dummheit hilft das nicht.

mfg, simon .... l
Andreas Prilop
2010-06-24 16:39:51 UTC
Permalink
Post by Tilo Baumann
Post by Andreas Prilop
Dann frag mal in <news:de.comm.software.newsreader> nach, was
Du einstellen kannst, damit Du wenigstens ein Eurozeichen ?
richtig schreiben und lesen kannst.
Was bei mir als ? erscheint, wurde beim Autor des Postings als
Anf=FChrungszeichen geschrieben. Was nutzen da Euros?
Ich wei=DF nicht, ob Sie sich blo=DF dummstellen oder dumm sind.
Nehmen wir mal zu Ihren Gunsten an, dass Sie noch in Bremen
zur Schule gehen m=FCssen.

Es geht generell um Zeichen au=DFerhalb von ISO-8859-1.
Der Euro (=80) ist da nur ein Beispiel.

--=20
Am besten gef=E4llt mir, dass Wuwu Seeler wieder mitspielt.
Tilo Baumann
2010-06-24 21:39:24 UTC
Permalink
Post by Tilo Baumann
Post by Andreas Prilop
Dann frag mal in <news:de.comm.software.newsreader> nach, was
Du einstellen kannst, damit Du wenigstens ein Eurozeichen ?
richtig schreiben und lesen kannst.
Was bei mir als ? erscheint, wurde beim Autor des Postings als
Anf?hrungszeichen geschrieben. Was nutzen da Euros?
Ich wei? nicht, ob Sie sich blo? dummstellen oder dumm sind.
Nehmen wir mal zu Ihren Gunsten an, dass Sie noch in Bremen
zur Schule gehen m?ssen.
Ich _bin_ dumm.
Daher lerne ich gerne von Leuten, die etwas zur Sache wissen. In sofern
nähme ich auch gern etwas von dir an. Worum könnte es sich da handeln?
Es geht generell um Zeichen au?erhalb von ISO-8859-1.
Der Euro (?) ist da nur ein Beispiel.
Brauche ich die? Wenn du mir dazu etwas mitzuteilen weißt, tu das bitte
per Mail, da nur zum Thema zu sprechen eine der Regeln im Usenet ist,
die ich gelernt und verstanden habe. Ich bitte dich auch, bei
zukünftigen Antworten im Usenet an/auf mich, diese Regel einzuhalten.


Tilo
--
Sprachschluderei im SPIEGEL: http://eene.mine.nu/spiegel2-hits.html
Lesen Sie weiter auf narkive:
Loading...