Automatisch Liste von URLs abrufen, Requests abbrechen, Javascript filtern

Commodo · 21 Apr. 2016

Ich habe ein aktuelles Projekt, bei dem ich spezifische Webseiten überprüfe.
Im Detail muss ich jede Ressourcenanfrage (inklusive die von ausgeführtem Javascript, da kommt mein gesuchter Parameter her) bei Seitenaufruf anhand einer Whitelist (aktuell Javascript Regex) überprüfen, bei Bedarf request.abort(); ausführen (wichtigster Punkt!) und ansonsten den Request nach einem bestimmten Parameter filtern und diesen ausgeben.

Dabei gehe ich momentan wie folgt vor

ein Crawler zieht eine Liste aller Links auf der Webseite
ein Programm nimmt das Crawler-Logfile als Input und verteilt die Links auf X PhantomJS-Instanzen, für die ich ein Javascript-Skript geschrieben habe welches PhantomJS bei Aufruf als Parameter bekommt.

Problem aktuell: PhantomJS als benötigter Headless-Browser

Es zieht Unmengen RAM + CPU, wenn man nicht aufpasst leakt es überall Speicher und es ist eine 3 Jahre alte geforkte Webkitversion, jetzt nicht grade der Browser-Überflieger. Ausserdem sind nebenläufige Zugriffe ein Garant für fehlerhafte Ausgaben weil PhantomJS die page-Objekte nicht sauber trennt und diese sich gegenseitig überschreiben

. Sequentiell dauert es aber Wochen bis die Tests fertig sind.
Es läuft im Moment zwar, aber sobald 30-50+ Webseiten gleichzeitig überprüft werden sollen fliegt mir der RAM wahrscheinlich um die Ohren und der Admin jagt mich durchs Büro.

Meine angeschauten Alternativen:
- SlimerJS: total veraltet, unterstützt nur bis Firefox 39
- Selenium mit Java/Python/Go als Binding: freie Browserwahl (Firefox, Chrome, PhantomJS), aber die API bietet keinen Zugriff auf angeforderte Ressourcen und damit auch keinen Weg diese gegebenfalls abzubrechen und ist damit nutzlos (hab zumindest nach 2 Stunden Google nichts gefunden)

Ich habe schon überlegt ob ich eine Chrome-Extension baue welches automatisch die Liste abgrast aber das ganze müsste headless auf dem Server laufen (geht wohl mittels virtuellem Framebuffer xbfc oder so), aber ob ich auch automatisch die Extension starten kann ohne GUI......?

Oder habt ihr noch eine Idee?

Timon3 · 21 Apr. 2016

Dein Problem scheint ja zu sein, dass dir PhantomJS zu leistungshungrig ist, wenn ich dich richtig verstanden hab, oder? Wäre vielleicht eine andere Sprache geeigneter, oder muss es aus irgendwelchen Gründen JS sein?

Du hast theoretisch ja auch die Möglichkeit, anstelle von PhantomJS oder solchen Umgebungen, die einen Browser nachahmen, Node.js zu verwenden, falls du auf JS festgelegt sein solltest. Du kannst den gewohnten Syntax usw benutzen, und gleichzeitig wenn du willst aus dem JS selbst heraus parallel laufende Worker starten.

Ich denke aber, am Besten kann dir geholfen werden, wenn du mehr über die Anforderungen deiner Toolchain schreibst.

Commodo · 21 Apr. 2016

GameChamp98 schrieb:
Dein Problem scheint ja zu sein, dass dir PhantomJS zu leistungshungrig ist, wenn ich dich richtig verstanden hab, oder? Wäre vielleicht eine andere Sprache geeigneter, oder muss es aus irgendwelchen Gründen JS sein?

Welche andere Sprache bietet mir denn die Möglichkeit einen Headless-Browser zu skripten ausser Selenium? PhantomJS geht entweder über JS-Skripte über mittels Selenium.

GameChamp98 schrieb:
Du hast theoretisch ja auch die Möglichkeit, anstelle von PhantomJS oder solchen Umgebungen, die einen Browser nachahmen

Sie ahmen keinen Browser nach, sie sind vollwertige Browserengines.

GameChamp98 schrieb:
Node.js zu verwenden, falls du auf JS festgelegt sein solltest. Du kannst den gewohnten Syntax usw benutzen, und gleichzeitig wenn du willst aus dem JS selbst heraus parallel laufende Worker starten.

Ich bin aktuell auf JS festgelegt weil man PhantomJS nicht anders steuern kann.

GameChamp98 schrieb:
Ich denke aber, am Besten kann dir geholfen werden, wenn du mehr über die Anforderungen deiner Toolchain schreibst.

Muss ohne GUI auf dem Server laufen, wenig Ressourcen verbrauchen, skriptbar sein.

Webseite aufrufen, Requests abfangen und überprüfen, beim richtigen Request Parameter auslesen und zurückgeben. Das ganze dann nebenläufig.

Timon3 · 21 Apr. 2016

@Commodo: Naja, zum Beispiel wäre es praktisch gewesen, zu wissen, dass du auch konkret einen Headless-Browser brauchst.

Es gibt durchaus Headless-Browser mit Bindings für andere Sprachen, z. B. trifleJS. Du hast da sogar recht viel Auswahl. Ich kann dir leider bei deinem konkreten Phantom-Problem nicht helfen, aber vielleicht findest du hier etwas, was deiner Situation eher entspricht.

Commodo · 21 Apr. 2016

GameChamp98 schrieb:
@Commodo: Naja, zum Beispiel wäre es praktisch gewesen, zu wissen, dass du auch konkret einen Headless-Browser brauchst.

Ich dachte das hätte ich reingeschrieben, hab ich aber wohl nicht .... mein Fehler.

GameChamp98 schrieb:
Es gibt durchaus Headless-Browser mit Bindings für andere Sprachen, z. B. trifleJS. Du hast da sogar recht viel Auswahl. Ich kann dir leider bei deinem konkreten Phantom-Problem nicht helfen, aber vielleicht findest du hier etwas, was deiner Situation eher entspricht.

Nein, gibt es leider nicht.

TrifleJS läuft nur unter Windows, deine verlinkte Liste kenne ich, ~20% davon basieren auf PhantomJS, 50% können kein Javascript und die anderen 20% sind veraltet/nicht mehr weiterentwickelt seit 2-6 Jahren/basieren auf Selenium.
5% der Projekte sind nebenbei weg vom Fenster und existieren nicht mehr ....... die Liste ist Schrott und das seit Jahren, sie war mal ~2006 gut.

Das einzig interessante könnte ghost.py (Python) und HtmlUnit (Java) sein, wobei die Frage ist ob diese performanter und mit den gleichen Möglichkeiten wie PhantomJS aufwarten können.

/edit Kommando zurück, ghost.py ist nicht kompatibel mit aktuellen Python-Versionen seit 7+ Monaten.

Automatisch Liste von URLs abrufen, Requests abbrechen, Javascript filtern

Commodo

NGBler

Timon3

Team ModMii

Commodo

NGBler

Timon3

Team ModMii

Commodo

NGBler