suche Webcrawler der JS auswertet

Kampfmelone · 25 Apr. 2015

Hallo, ich müsste eine Website "kopieren", die bald offline gehen wird, da sie durch eine erneuerte Version ersetzt wird. Leider wurde die Seite mit iWeb erstellt und ich habe keinen Zugriff auf die "Quelldatei".
Leider wird quasi alles auf den Seiten, die Navigation, Galerien, Newsliste, per JS nachgeladen/erzeugt, sind ohne JS also nicht sichtbar.

Probiert habe ich schon Xaldon WebSpider2 und WinHTTrack, die scheinen jedoch beide das enthaltene JS nicht auszuführen, also fehlt ein Großteil.

Es wäre echt praktisch wenn jemand von euch da schon Erfahrung hätte wie man das am besten hinbekommt.

Danke!

theSplit · 26 Apr. 2015

Javascript ist leider mit gängigen Crawlern so nicht zu erfassen, da diese javascript nicht interpretieren und auswerten - wie du schon selbst gemerkt hast.

Was du ausprobieren könntest, aber keine Einklick Lösung ist:

You do not have permission to view link please Anmelden or Registrieren

Firefox kann dabei mittels Add-on Seiten aufrufen und ferngesteuert werden, ob es allerdings möglich ist die Webseite zu speichern und nicht nur Daten an selbige zu übermitteln, das weiß ich nicht.
Es gibt aber diverse Bindings für Selenium IDE womit man mit einer Webseite interagieren kann, siehe Download Sektion auf der Homepage von Selenium. Die Dokumentation würde aber noch einige Fragen mehr klären.

Was auch interessant wäre, etwas mit Qt zu realisieren was eine Webseite ausließt und speichert - da hier Webkit zum Rendern des HTML/Javascripts genutzt wird.
Mit Qt sind mir allerdings auch keine Lösungen bekannt die so etwas anbieten und in wie weit man Zugriff auf die Rohdaten bekommt.

Ansonsten wäre ich auch an einer Lösung interessiert.

suche Webcrawler der JS auswertet

Weitere

Kampfmelone

süß und saftig

theSplit

1998