[Technik] Searx - Freie Metasuchmaschine zum selbst hosten

Searx ist eine Metasuchmaschine die auf Wunsch die Indizes von bis zu 70 Onlinequellen durchsucht. Zu diesen Quellen gehören unter anderem Google, Bing, Wikipedia und Wolfram Alpha. Aber auch Stackoverflow, Github, Spotify und Deezer lassen sich damit durchsuchen.

Der Unterschied zu anderen Metasuchmaschinen wie Startpage ist, dass man sich Searx auf den eigenen Webserver installieren kann. Selbst eine Betrieb auf einem Raspberry Pi soll möglich sein. In allen Fällen wird allerdings Python benötigt. Ein normaler Webspace mit PHP reicht also nicht aus.

Unter searx.de kann auch ohne eigene Installation die Metasuchmaschine genutzt werden. Laut den Entwicklern werden keine Nutzerdaten gesammelt. Weiterhin gibt es bereits mehr als 30 öffentlich nutzbare Instanzen der Suchmaschine. Eine Liste dieser findet man unter . Auch wird Searx bereits als Tor-Hidden-Service angeboten ( und ).

Quelle:
 
  • Thread Starter Thread Starter
  • #21
Ok so wird mir das schon klarer. Macht für mich damit also keinen Sinn bzw. ist den Aufwand nicht wert...

Wird es unterm Strich vermutlich für die wenigsten. Aber die Liste öffentlichen Instanzen wird immer größer. Die kann man ja auch nutzen. Oder man bleibt halt bei den normalen Suchmaschinen seiner Wahl.

Das stimmt nur bedingt: Wenn du die Suchmaschine selbst, daheim (nur für dich) hostest, dann kann z.B. Google genauso ein Profil erstellen.
Ob du nun direkt auf Google oder über eine Meta-Suchmaschine auf Google zugreifst, das Profil wird erstellt und an dich angepasst.

Möglich, dass ich hier einen Denkfehler habe. Aber Google sollte es über den Umweg über eine Meta-Suchmaschine deutlich schwerer haben zu protokollieren, welche Suchergebnisse ich tatsächlich aufgerufen habe.

Das ist nur ein Vorteil, wenn die verschiedenen Quellen tatsächlich unterschiedliche Indizes besitzen. Die großen Suchmaschinen sind vermutlich alle mehr oder weniger gleich und gleichermaßen zensiert.

Searx kann aktuell bei über 70 Quellen Anfragen stellen. Die großen Suchmaschinen sind hier zwar mit dabei, aber auch sehr viele andere, zum Teil spezialisierte Quellen.

Die Ausgabe kann ich auch für die Google-Suche beeinflussen, sei es ich binde mir die Suche in eine eigene Seite ein, oder über eine Erweiterung.

Oder man schreibt eine komplett neue Suchmaschine. Oder oder oder.

Alleine dass man von Haus aus bei Searx angezeigt bekommt, aus welcher Quelle der Treffer stammt, finde ich z. B. nicht schlecht.

Auch so dinge wie endlos-Scrollen sind möglich...

Das wäre für mich durchaus angenehm. Hast du hierzu eine Quelle wie man das bei Google einstellen kann?

Aber ich finde auch 0 Vorteil / Sinn an dieser selbst gehosteten Meta-Suchmachine...

Dann bist du einfach nicht Teil der Zielgruppe. Ist doch in Ordnung. Ich finde z. B. auch null Sinn an Facebook und Co. Und trotzdem benutzen es Millionen oder gar Milliarden Menschen.
 
Der Vorteil ist, dass z. B. Dritte kein kein Profil deiner Suchanfragen erstellen. [...]
Eine Zensur kann man damit meiner Meinung nach nicht umgehen. Außer vielleicht wenn Suchmaschine X zensiert wenn eine IP aus Land X eine Anfrage stellt und man Searx auf einem Server mit einer IP aus Land Y hostet.


Zum Profil mit den Suchanfragen: Warum eigentlich nicht?
Mal angenommen, ich hoste die Suchmaschine bei mir und bin dann der einzige User - Welchen Unterschied macht dass dann? Außer, dass google nicht noch cookies bei mir setzt, ist dann doch nichts anders oder hab ich da ein Verständnisproblem?
 
schon richtig. Deswegen sollte man so eine Suchmaschine mit mindestens drei Nutzern bestücken, komplett private Instanzen sind imho recht sinnfrei ;)
 
Möglich, dass ich hier einen Denkfehler habe. Aber Google sollte es über den Umweg über eine Meta-Suchmaschine deutlich schwerer haben zu protokollieren, welche Suchergebnisse ich tatsächlich aufgerufen habe.
Ist dir vielleicht noch nicht aufgefallen, aber wenn du ein Suchergebnis bei Google aufrufst, dann rufst du nicht direkt das Suchergebnis von Google auf, sondern zunächst eine spezielle Google-Seite, die dann unmittelbar zum Suchergebnis weiterleitet.
Du kannst dir das so vorstellen, die bei diesen Link-Anonymisierern, die im Webwarez-Bereich gerne verwendet werden. Nur dass Google selbst keine Verzögerung bei der Weiterleitung einbaut, sondern dich unmittelbar weiterleitet.

Googlesuche nach Weltall:
[src=html5]<a href="https://de.wikipedia.org/wiki/Universum" onmousedown="return rwt(this,'','','','6','AFQjCNE8wtGbq5_KVQ7Fesd6oC0DY4IzAg','','0ahUKEwj905vdi5DPAhWDXRQKHb6CAecQFggxMAU','','',event)">Universum – Wikipedia</a>[/src]

Beim Klick auf den Link:
[src=text]https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&cad=rja&uact=8&ved=0ahUKEwj905vdi5DPAhWDXRQKHb6CAecQFggxMAU&url=https%3A%2F%2Fde.wikipedia.org%2Fwiki%2FUniversum&usg=AFQjCNE8wtGbq5_KVQ7Fesd6oC0DY4IzAg[/src]

Ergebnis: Du landest bei Wikipedia.

Kurz gesagt: Wenn deine Meta-Suchmaschine nicht in der Lage ist, die Links vollständig aufzulösen, dann wird Google trotzdem wissen, dass du einen bestimmten Link aufgerufen hast. Da hilft dann übrigens auch nicht, wenn du die Meta-Suchmaschine mit mindestens 3 weiteren Leuten nutzt. ;)



Searx kann aktuell bei über 70 Quellen Anfragen stellen. Die großen Suchmaschinen sind hier zwar mit dabei, aber auch sehr viele andere, zum Teil spezialisierte Quellen.
Welche wären das denn zum Beispiel? Ich wüsste nicht, welchen Vorteil ich davon haben sollte.
Die großen Suchmaschinen dürften in vielen Fällen auch das enthalten, was die "spezialisierten Quellen" aufweisen.
Ein konkretes Beispiel: Es macht keinen Unterschied, ob man
direkt auf Wikipedia nach
[src=text]"Begriff den ich suche"[/src]
sucht oder ob man bei Google nach
[src=text]"Begriff den ich suche" -site:wikipedia.org[/src]
sucht.

Einfacher gesagt: Wieso sollte eine spezialisierte Suchmaschine andere Inhalte finden, als Google? Sind wir mal ehrlich, wahrscheinlich kann eine spezialisierte Suchmaschine zwar Inhalte speziell zu einem Bereich liefern, aber ich sehe keinen Grund, warum sie mehr Inhalte finden sollte, als Google. Google wird wahrscheinlich nur deutlich mehr "drum herum" finden, das nicht speziell zu diesem Bereich gehört, was für dich ggf. für eine gewisse Unübersichtlichkeit sorgt.


Ich könnte mir höchstens vorstellen, dass man einen Vorteil erfährt, wenn ein bestimmter Crawler hinterlegte robots.txt-Files ignoriert. Google und Co halten sich zumindest bei der Übernahme in den Index ausnahmslos an Indexierungs-Regeln der robots.txt. Es gibt jedoch einige Crawler, die die robots.txt ignorieren und daher Inhalte in ihren Index übernehmen, die die Website-Betreiber explizit von einer Indexierung ausgeschlossen haben.


Übrigens: Google war lange Zeit die einzige (?!) Suchmaschine, die JavaScript-Inhalte auswerten konnte. Google hat also nicht nur den HTML-Inhalt einer Website ausgewertet, sondern konnte Websites genauso wahrnehmen, wie ein Besucher sie wahrnehmen konnte. Damit war Google vielen weiteren Suchmaschinen deutlich voraus. Mittlerweile sind aber auch andere auf diesen Zug aufgesprungen.
 
Zurück
Oben