YaCy

accC

gesperrt
Registriert
14 Juli 2013
Beiträge
3.384
Für alle, die YaCy (noch) nicht nutzen oder kennen:
YaCy ist als eine 2003 entwickelte P2P-Suchmaschine. Man kann sowohl diesem P2P Prinzip folgen und den Index mittels der Ergebnisse eigener Crawler und fremder Crawler des Netzwerk anreichern, als auch seinen rein privaten Index anfertigen. YaCy ist in Java geschrieben und kann über ein Webinterface bedient werden.
Eingesetzt wird YaCy beispielsweise von der Johannes-Gutenberg-Universität Mainz.
Durch die Architektur ergeben sich einige Vor-, aber auch eine Reihe an Nachteilen.

YaCy -


Eigentlich wollte ich YaCy nur mal antesten und habe es mal aufgesetzt, seit dem rennt es vor sich her und hat mir innerhalb von ein paar Tagen einen ca 100GB Index erwirtschaftet. Bei Testsuchen werden mir auch brauchbare Ergebnisse geliefert.

Was mir allerdings ein bisschen Bauchschmerzen bereitet ist, dass bei der P2P Technologie wohl duzende Crawler unterwegs sind, die unter Umständen doch recht aggressiv geschaltet sind - immerhin erzeugte mein Crawler in der Standardeinstellung mehrere duzend Seitenaufrufe pro Sekunde pro Domain, man stelle sich das mal für hunderte oder tausende Peers vor, die gemeinsam oder redundant Seiten crawln. Außerdem können (werden) wohl auch Medieninhalte indexiert (werden). Wie sieht es da rechtlich aus, wenn man die Suchmaschine öffentlich schaltet oder auch nur den Index mit dem Netzwerk teilt?
Klar genießen Suchmaschinen in gewisser Weise mehr Freiheiten, aber wird eine "private" Suchmaschine bzw ein Node aus einer P2P Suchmaschine auch so behandelt?

Ich wollte mal nachfragen, wer YaCy kennt und vielleicht sogar selbst nutzt und was eure Meinungen dazu sind.
 
Eigentlich wollte ich YaCy nur mal antesten und habe es mal aufgesetzt, seit dem rennt es vor sich her und hat mir innerhalb von ein paar Tagen einen ca 100GB Index erwirtschaftet. Bei Testsuchen werden mir auch brauchbare Ergebnisse geliefert.

Bei meiner 250GB Festplatte eher weniger geeignet :D
Da bleibe ich lieber bei DuckDuckGo oder Startpage als Suche.
 
  • Thread Starter Thread Starter
  • #4
Nun das mit dem Speicherverbrauch ist eben so eine Sache, wobei man sich bei bezahlbaren TB-Platten kaum Gedanken machen muss..
Ich habe eine eigene Kiste am Laufen - wozu stellt man sich schon die halbe Wohnung mit Hardware voll, wenn nicht dazu um dann auch mal damit spielen zu können?
Da ich anfangs nicht davon ausgegangen bin, dass ich den Server längere Zeit laufen lasse, habe ich ihn auch nur auf drittklassiger Hardware (Intel Core 2 Duo, 3GB DDR2 Ram) aufgesetzt. Ab 1GB RAM kann man von "laufen" sprechen, darunter war zumindest meine YaCy-Installation nicht zu gebrauchen. Wirklich schön fand ich den Betrieb allerdings erst ab 2GB, vorher ist crawln und Suchen gleichzeitig noch wirklich eine Geduldprobe.

Ich crawle zur Zeit ca 30 größere Seiten mit entsprechender Tiefe und erstelle meinen eigenen Index. Sicherlich ließe sich mit weniger Festplatte auskommen, wenn man sich nur auf Remote-Ergebnisse verlassen würde. Da kommt es wohl darauf an, wofür du dich so interessierst und wofür sich das Netzwerk interessiert. Je nach Schwerpunkten kann die remote-Suche jedoch noch zu schwach sein.

Hier habe ich mal ein paar Ergebniswerte für verschiedene Keywords aufgelistet.

[TABLE="width: 800"]
[TR]
[TH]Keyword[/TH]
[TH="colspan: 3"]Suchmaschine[/TH]
[/TR]
[TR]
[TH][/TH]
[TH]Google[/TH]
[TH]YaCy lokal[/TH]
[TH]YaCy remote[/TH]
[/TR]
[TR="class: border"]
[TD="align: left"]Wikipedia[/TD]
[TD="align: left"]236.000.000[/TD]
[TD="align: left"]4.000[/TD]
[TD="align: left"]112.000[/TD]
[/TR]
[TR="class: border"]
[TD="align: left"]N/A[/TD]
[TD="align: left"]5.000.000[/TD]
[TD="align: left"]55.000[/TD]
[TD="align: left"]500[/TD]
[/TR]
[TR="class: border"]
[TD="align: left"]N/A[/TD]
[TD="align: left"]49.000.000[/TD]
[TD="align: left"]160.000[/TD]
[TD="align: left"]8.000[/TD]
[/TR]
[TR="class: border"]
[TD="align: left"]Angela Merkel[/TD]
[TD="align: left"]13.000.000[/TD]
[TD="align: left"]63.000[/TD]
[TD="align: left"]15.000[/TD]
[/TR]
[TR="class: border"]
[TD="align: left"]Barack Obama[/TD]
[TD="align: left"]48.000.000[/TD]
[TD="align: left"]29.000[/TD]
[TD="align: left"]37.000[/TD]
[/TR]
[/TABLE]

Achtung:
  1. Die Ergebnisse sind unregelmäßig (auf-/ab-)gerundet.
  2. Die Ergebnisse können aufgrund von Schwankungen der Netzwerkteilnehmer stets schwanken.
  3. Die Ergebnisse sind nicht repräsentativ, insbesondere wurden Keywords bewusst gewählt.
 
Ich hatte mal YaCy einige monate auf eine server laufen und habe eig nur die Piratebay indexiert was echt ewig gedauert hat... aber naja 4lulz
 
Zurück
Oben