Javascript - wie genau läuft dieser Request ab? (Bild von Firebug)

Commodo

Neu angemeldet
Registriert
17 Mai 2014
Beiträge
149
Ich habe einen Crawler in GO geschrieben, der auch soweit super läuft.

Allerdings möchte ich jede Seite auf einen bestimmten Request hin überprüfen, da auf jeder Seite ein eingebundenes Javascript läuft/laufen sollte (wenn keins da ist kommt das auch mit in die CSV-Datei am Ende), welches diesen Request sendet.

Bild:

Problem 1: Ich weiss nicht genau, wie dieser Request abläuft, meinen beschränkten Webkenntnissen nach lädt mein Browser die Seite, rendert sie und führt das Script aus, welches dann den Request an den pi.aspx-Server sendet?
Also feuert mein Browser diesen Request quasi ab?

Problem 2: Wie könnte ich dieses JSON-Objekt und die Campaign-ID (es ändern sich je nach Seite oft Werte) beim Seitenaufruf bekommen?
Headless-Browser wäre wohl eine Möglichkeit, mein Crawler hat 6Mb, PhantomJS hat 46Mb und ich müsste ihn mit Javascript programmieren was ich nicht kann und ich weiss nicht wonach ich googlen müsste für Infos (siehe Problem 3) :(

Problem 3: Wonach müsste ich googlen? GET Request bringt mir URL Parameter filtern und POST Requests auslesen, aber nicht das was ich brauche :confused:-

Mit besten Grüßen ins Wochenende :beer:.
 
Hey,

1. Jap.
2./3. Boah, da bin ich etwas überfragt. Der gefeuerte Request dürfte ein XMLHttpRequest sein, dessen Objekt man durchaus per addEventListener ein Event-Handling verpassen kann. Sollte ich damit falsch liegen, kannst Du aber nach diesen Stichworten suchen.

Gruß,

J.
 
Problem 2: Wie könnte ich dieses JSON-Objekt und die Campaign-ID (es ändern sich je nach Seite oft Werte) beim Seitenaufruf bekommen?
Das lässt sich so allgemein nicht beantworten, bzw. die einzige allgemeine Lösung ist die Verwendung eines (Headless-)Browsers. Mutmasslich finden sich die Informationen jedoch entweder im extern eingebundenen JavaScript selbst, oder aber in einem script-Element auf der Seite. In beiden Fällen könntest du z.B. reguläre Ausdrücke verwenden, um die Informationen aus dem JavaScript-Quelltext zu parsen.
 
  • Thread Starter Thread Starter
  • #4
Mutmasslich finden sich die Informationen jedoch entweder im extern eingebundenen JavaScript selbst, oder aber in einem script-Element auf der Seite. In beiden Fällen könntest du z.B. reguläre Ausdrücke verwenden, um die Informationen aus dem JavaScript-Quelltext zu parsen.
Das ist leider nicht der Fall, ich hab grade das Script mal untersucht, da fehlen fast alle Werte :(.

Im Quelltext stehen die Sachen manchmal, aber nicht immer und die Anzahl an Variablen/Werten ändert sich auch, der einzig sichere Weg an diese Informationen zu kommen ist leider der GET Request.

Beispielsweise sieht ein Request so aus (etwas gekürzt):
Code:
Expand Collapse Copy
https://m.XXXXX.de/pi.aspx?campaign=26113a&pitype=Content&convtype=&items=%7B%22type%22%3A%22Content%22%2C%22conversiontype%22%3A%22%22%2C%22referrer%22%3A%22%22%2C%22host%22%3A%22www.hghghg.de

Ein Headless-Browser würde meinen Crawler von 6Mb auf 52Mb aufblähen mit PhantomJS und ich müsste ihn in Javascript programmieren, wovor es mir ziemlich graust da ich von JS absolut 0 Ahnung habe. Aber anscheinend komm ich da nicht drum rum :(.
 
Zurück
Oben