Analyse von Google Suchergebnissen? [erledigt]

Registriert
10 Jan. 2018
Beiträge
31
Hallo zusammen,

ich nutze Google ab und zu ganz gerne zu Beantwortungen von Fragen wie:
  • Wie oft haben Websites der britischen Regierung im Januar 2013 etwas über Klimawandel veröffentlicht? [ ]
  • Gibt es Artikel der Süddeutschen Zeitung aus dem Jahr 2009 über Mauretanien? [ ]
Das eignet sich für einen groben Überblick erstaunlich gut; für die tiefere Beantwortung jener Fragen muss man sich dann jedes Ergebnis nochmal einzeln ansehen; Teaser für weiteren Content unter Artikeln bspw. missversteht Google bei einigen Websites oft falsch.

Meine Frage ist eigentlich recht simpel: gibt es ein Skript, Onlinetool, wasauchimmer, dass mir die obigen Suchanfragen automatisch ein bisschen analysiert und mir so Werte ausgibt wie Suchergebnisse, Ergebnisse nach Monat/anderer Zeiteinheit, ...

Ich hab erstaunlicherweise diesbzgl. nichts finden können und auch beim Formulieren des Threadtitels ein bisschen meine Probleme; eigentlich gibt de rnicht unbedingt das wieder was ich fragen will. Wer also weiß, wie ich den Threadtitel verbessern kann und oder gleich sofort eine Antwort auf meine Frage👎 hat, dem reiche ich schon im Vorraus eine :coffee:.

Lieben Gruß - ESOM.
 
Zuletzt bearbeitet:
Re: Analyse von Google Suchergebnissen?

Deine Schlagwörter wären Tools für SEO bzw. SERP.

Hier habe ich gerade eine interessante Lösung gefunden, für die eine Google Tabelle ausreicht:


Die Einschränkung auf eine bestimmte Zeit müsstest Du noch einbauen, aber die ist auch nur ein Parameter in der url (&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2013%2Ccd_max%3A1%2F31%2F2013).
 
  • Thread Starter Thread Starter
  • #3
Re: Analyse von Google Suchergebnissen?

Ui, das sieht ja richtig richtig geil aus, Danke sehr!

Leider aber scheint das Skript nicht wirklich zu funktionieren. Ich habe das seit dem du's heir reingepostet hast, immer mal wieder ; es bleibt dabei, dass offensichtlich Google die Suchanfragen von GoogleDocs blockiert. Das Problem wird auch bereits in den Kommentaren zu dem Blogbeitrag diskutiert: .

Kann man dieses Skript, dass GoogleDocs dort ausführt auch irgendwie anders ausführen? Oder den Ursprung aus GoogleDocs derartig verschleiern, dass die Suchmaschine das nicht mitbekommt und bei der Anfrage davon ausgeht, es sei ein Browser?

Lieben Gruß - ESOM.
 
  • Thread Starter Thread Starter
  • #4
Re: Analyse von Google Suchergebnissen?

Inzwischen habe ich es aufgegeben, das Ganze mit diesem Skript zu versuchen.

hingegen funktioniert sehr sehr gut. Das ist etwas komplizierter einzurichten, die gelieferten Daten dürften aber ohnehin umfangreicher sein.
 
Zuletzt bearbeitet:
Re: Analyse von Google Suchergebnissen?

interessant. Und der kommt nicht seine Grenzen = Sperrung durch Google bei zu vielen Aufrufe?
 
  • Thread Starter Thread Starter
  • #6
Re: Analyse von Google Suchergebnissen?

Doch, tatsächlich besteht dort auch die Gefahr von Google zeitweise gebannt zu werden; dann gibt dir das Skript nur noch [kw]Malicious Request Detected[/kw] aus. Dennoch ist das schon viiiiel näher am Ziel als das von dir eingangs vorgeschlagene Scraper-Skript über GoogleDocs, weil man tatsächlich mal schöne ordentliche Ergebnisse in einem JSON hat :beer:.

Es besteht allerdings ein Proxysupport:
Provides proxy support using socksipy and built in browser proxies:
Socks5
Socks4
HttpProxy
Da allerdings besteht dann wiederum das Problem, dass es quasi keine guten freien Proxies gibt, die einen nicht auch nach wenigen Requests schon sperren (oder sind welche bekannt, die für so etwas gut wären :)?)

Als Workaround habe ich mit meinem Smartphone einen Hotspot eingerichtet, habe das Skript über die neue IP laufen lassen, mich sperren lassen, mobile Datenverbindung kurzzeitig ausgeschaltet, neue IP erhalten und konnte weiter scrapen ;) :).
 
Google, hat aber auch, bei "expliziten" (bzw. mehreren) Suchanfragen gerne eine Captcha-Seite eingebaut, zum Beispiel wenn Suchmaschinen-Parameter verwendet werden. Daran könnte so ein Skriptaufruf auch "scheitern". Falls darauf nicht geprüft wird, das Skript ist ja schon 2 Jahre alt.
 
  • Thread Starter Thread Starter
  • #8
Danke, dass du das erwähnst! Ich hab das gerade nochmal nachgecheckt - das war bei mir aber nicht der Fall. Ich hatte zwar jene von dir angesprochenen "expliziten" Suchanfragen (Zeitraumbegrenzung, Seitenbeschränkung) - dennoch wurden alle Suchergebnisse korrekt in die JSON-Dateien eingetragen; wenn das Skript anfangs n Suchergebnisse hat finden können, waren auch immer n Einträge in der JSON :).

Ansonsten bestünde noch der Captcha-Modus in dem Skript: (Zeile 250ff), der allerdings nur eine manuelle Option anbietet.

bietet tatsächlich deathbycaptcha.com-Support an - da fand ich allerdings den Output des Skripts nicht so schön wie dem eingangs von mir empfohlenem ;).
 
Okay, wundert mich ein wenig... :)

Aber du solltest auch beachten:

Manual captcha solving
# If this parameter is set to a Integer, the browser waits for the user
# to enter the captcha manually whenever Google detected the script as malicious.

# Set to False to disable.
# If the captcha isn't solved in the specified time interval, the browser instance
# with the current proxy is discarded.

Was so viel heißt wie, wenn du keine Captchas manuell eingibst, wird die "Sitzung" / Instanz verworfen, daher, du würdest Daten verlieren.
Wäre in deinem Fall ja nicht so toll ;)
 
Zurück
Oben