Commodo
NGBler
- Registriert
- 17 Mai 2014
- Beiträge
- 151
Ich habe einen Crawler in GO geschrieben, der auch soweit super läuft.
Allerdings möchte ich jede Seite auf einen bestimmten Request hin überprüfen, da auf jeder Seite ein eingebundenes Javascript läuft/laufen sollte (wenn keins da ist kommt das auch mit in die CSV-Datei am Ende), welches diesen Request sendet.
Bild: http://postimg.org/image/ozw6y3mjb/full/
Problem 1: Ich weiss nicht genau, wie dieser Request abläuft, meinen beschränkten Webkenntnissen nach lädt mein Browser die Seite, rendert sie und führt das Script aus, welches dann den Request an den pi.aspx-Server sendet?
Also feuert mein Browser diesen Request quasi ab?
Problem 2: Wie könnte ich dieses JSON-Objekt und die Campaign-ID (es ändern sich je nach Seite oft Werte) beim Seitenaufruf bekommen?
Headless-Browser wäre wohl eine Möglichkeit, mein Crawler hat 6Mb, PhantomJS hat 46Mb und ich müsste ihn mit Javascript programmieren was ich nicht kann und ich weiss nicht wonach ich googlen müsste für Infos (siehe Problem 3)
Problem 3: Wonach müsste ich googlen? GET Request bringt mir URL Parameter filtern und POST Requests auslesen, aber nicht das was ich brauche -
Mit besten Grüßen ins Wochenende .
Allerdings möchte ich jede Seite auf einen bestimmten Request hin überprüfen, da auf jeder Seite ein eingebundenes Javascript läuft/laufen sollte (wenn keins da ist kommt das auch mit in die CSV-Datei am Ende), welches diesen Request sendet.
Bild: http://postimg.org/image/ozw6y3mjb/full/
Problem 1: Ich weiss nicht genau, wie dieser Request abläuft, meinen beschränkten Webkenntnissen nach lädt mein Browser die Seite, rendert sie und führt das Script aus, welches dann den Request an den pi.aspx-Server sendet?
Also feuert mein Browser diesen Request quasi ab?
Problem 2: Wie könnte ich dieses JSON-Objekt und die Campaign-ID (es ändern sich je nach Seite oft Werte) beim Seitenaufruf bekommen?
Headless-Browser wäre wohl eine Möglichkeit, mein Crawler hat 6Mb, PhantomJS hat 46Mb und ich müsste ihn mit Javascript programmieren was ich nicht kann und ich weiss nicht wonach ich googlen müsste für Infos (siehe Problem 3)
Problem 3: Wonach müsste ich googlen? GET Request bringt mir URL Parameter filtern und POST Requests auslesen, aber nicht das was ich brauche -
Mit besten Grüßen ins Wochenende .