• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

Automatisch Liste von URLs abrufen, Requests abbrechen, Javascript filtern

Commodo

NGBler

Registriert
17 Mai 2014
Beiträge
151
Ich habe ein aktuelles Projekt, bei dem ich spezifische Webseiten überprüfe.
Im Detail muss ich jede Ressourcenanfrage (inklusive die von ausgeführtem Javascript, da kommt mein gesuchter Parameter her) bei Seitenaufruf anhand einer Whitelist (aktuell Javascript Regex) überprüfen, bei Bedarf request.abort(); ausführen (wichtigster Punkt!) und ansonsten den Request nach einem bestimmten Parameter filtern und diesen ausgeben.

Dabei gehe ich momentan wie folgt vor
  • ein Crawler zieht eine Liste aller Links auf der Webseite
  • ein Programm nimmt das Crawler-Logfile als Input und verteilt die Links auf X PhantomJS-Instanzen, für die ich ein Javascript-Skript geschrieben habe welches PhantomJS bei Aufruf als Parameter bekommt.

Problem aktuell: PhantomJS als benötigter Headless-Browser

Es zieht Unmengen RAM + CPU, wenn man nicht aufpasst leakt es überall Speicher und es ist eine 3 Jahre alte geforkte Webkitversion, jetzt nicht grade der Browser-Überflieger. Ausserdem sind nebenläufige Zugriffe ein Garant für fehlerhafte Ausgaben weil PhantomJS die page-Objekte nicht sauber trennt und diese sich gegenseitig überschreiben :m. Sequentiell dauert es aber Wochen bis die Tests fertig sind.
Es läuft im Moment zwar, aber sobald 30-50+ Webseiten gleichzeitig überprüft werden sollen fliegt mir der RAM wahrscheinlich um die Ohren und der Admin jagt mich durchs Büro.

Meine angeschauten Alternativen:
- SlimerJS: total veraltet, unterstützt nur bis Firefox 39
- Selenium mit Java/Python/Go als Binding: freie Browserwahl (Firefox, Chrome, PhantomJS), aber die API bietet keinen Zugriff auf angeforderte Ressourcen und damit auch keinen Weg diese gegebenfalls abzubrechen und ist damit nutzlos (hab zumindest nach 2 Stunden Google nichts gefunden)

Ich habe schon überlegt ob ich eine Chrome-Extension baue welches automatisch die Liste abgrast aber das ganze müsste headless auf dem Server laufen (geht wohl mittels virtuellem Framebuffer xbfc oder so), aber ob ich auch automatisch die Extension starten kann ohne GUI......?

Oder habt ihr noch eine Idee?
 
Zuletzt bearbeitet:

Timon3

Team ModMii

Registriert
17 Juli 2013
Beiträge
499
Dein Problem scheint ja zu sein, dass dir PhantomJS zu leistungshungrig ist, wenn ich dich richtig verstanden hab, oder? Wäre vielleicht eine andere Sprache geeigneter, oder muss es aus irgendwelchen Gründen JS sein?

Du hast theoretisch ja auch die Möglichkeit, anstelle von PhantomJS oder solchen Umgebungen, die einen Browser nachahmen, Node.js zu verwenden, falls du auf JS festgelegt sein solltest. Du kannst den gewohnten Syntax usw benutzen, und gleichzeitig wenn du willst aus dem JS selbst heraus parallel laufende Worker starten.

Ich denke aber, am Besten kann dir geholfen werden, wenn du mehr über die Anforderungen deiner Toolchain schreibst.
 

Commodo

NGBler

Registriert
17 Mai 2014
Beiträge
151
  • Thread Starter Thread Starter
  • #3
Dein Problem scheint ja zu sein, dass dir PhantomJS zu leistungshungrig ist, wenn ich dich richtig verstanden hab, oder? Wäre vielleicht eine andere Sprache geeigneter, oder muss es aus irgendwelchen Gründen JS sein?
Welche andere Sprache bietet mir denn die Möglichkeit einen Headless-Browser zu skripten ausser Selenium? PhantomJS geht entweder über JS-Skripte über mittels Selenium.

Du hast theoretisch ja auch die Möglichkeit, anstelle von PhantomJS oder solchen Umgebungen, die einen Browser nachahmen
Sie ahmen keinen Browser nach, sie sind vollwertige Browserengines.

Node.js zu verwenden, falls du auf JS festgelegt sein solltest. Du kannst den gewohnten Syntax usw benutzen, und gleichzeitig wenn du willst aus dem JS selbst heraus parallel laufende Worker starten.
Ich bin aktuell auf JS festgelegt weil man PhantomJS nicht anders steuern kann.

Ich denke aber, am Besten kann dir geholfen werden, wenn du mehr über die Anforderungen deiner Toolchain schreibst.
Muss ohne GUI auf dem Server laufen, wenig Ressourcen verbrauchen, skriptbar sein.

Webseite aufrufen, Requests abfangen und überprüfen, beim richtigen Request Parameter auslesen und zurückgeben. Das ganze dann nebenläufig.
 
Zuletzt bearbeitet:

Timon3

Team ModMii

Registriert
17 Juli 2013
Beiträge
499
@Commodo: Naja, zum Beispiel wäre es praktisch gewesen, zu wissen, dass du auch konkret einen Headless-Browser brauchst.

Es gibt durchaus Headless-Browser mit Bindings für andere Sprachen, z. B. trifleJS. Du hast da sogar recht viel Auswahl. Ich kann dir leider bei deinem konkreten Phantom-Problem nicht helfen, aber vielleicht findest du hier etwas, was deiner Situation eher entspricht.
 

Commodo

NGBler

Registriert
17 Mai 2014
Beiträge
151
  • Thread Starter Thread Starter
  • #5
@Commodo: Naja, zum Beispiel wäre es praktisch gewesen, zu wissen, dass du auch konkret einen Headless-Browser brauchst.
Ich dachte das hätte ich reingeschrieben, hab ich aber wohl nicht .... mein Fehler.

Es gibt durchaus Headless-Browser mit Bindings für andere Sprachen, z. B. trifleJS. Du hast da sogar recht viel Auswahl. Ich kann dir leider bei deinem konkreten Phantom-Problem nicht helfen, aber vielleicht findest du hier etwas, was deiner Situation eher entspricht.
Nein, gibt es leider nicht.

TrifleJS läuft nur unter Windows, deine verlinkte Liste kenne ich, ~20% davon basieren auf PhantomJS, 50% können kein Javascript und die anderen 20% sind veraltet/nicht mehr weiterentwickelt seit 2-6 Jahren/basieren auf Selenium.
5% der Projekte sind nebenbei weg vom Fenster und existieren nicht mehr ....... die Liste ist Schrott und das seit Jahren, sie war mal ~2006 gut.

Das einzig interessante könnte ghost.py (Python) und HtmlUnit (Java) sein, wobei die Frage ist ob diese performanter und mit den gleichen Möglichkeiten wie PhantomJS aufwarten können.

/edit Kommando zurück, ghost.py ist nicht kompatibel mit aktuellen Python-Versionen seit 7+ Monaten.
 
Zuletzt bearbeitet:
Oben