Speichern einer bestimmten Website inkl. Unterseiten

Kaesereibe

Haben oder Sein?
Registriert
20 Juli 2013
Beiträge
871
Ort
NRW
Mahlzeit NGB!

Ich weiß, das ist ein altes leidiges Thema, das schon im NGB aufkam und auch viele Ergebnisse auswirft, wenn man eine Suchmaschine befragt. Allerdings konnten mich bisherige Ratschläge nicht ans gewünschte Ziel bringen. Also frage ich einfach mal hier nach, ob jemand eine Lösung für ein spezifisches Problem hat. Konkret geht es um folgende Seite:

Ich würde gern ein Abbild aller 443 Unterseiten lokal abspeichern. Gängige Tools, die Webseiten speichern können, fragen im Regelfall nach der Tiefe der Linkverfolgung. Praktisch müsste ich dabei mindestens 443 angeben. Allerdings folgen die Tools dann ALLEN Links so tief, nicht nur der Seitenzahl der Kommentarsektion, oder es tut sich einfach gar nichts. Rumprobiert habe ich mich ScrapBook und WinHTTrack. Gibt es ein Tool, das irgendwie spezifischere Optionen bietet oder hat generell irgendjemand eine Idee, wie ich das mit genannten Tools erledigen könnte?
 
Zuletzt bearbeitet:
Ich würde gern ein Abbild aller 443 Unterseiten lokal abspeichern. Gängige Tools, die Webseiten speichern können, fragen im Regelfall nach der Tiefe der Linkverfolgung.
Ich glaube nicht, dass hier arschig (Scheißwortspiel :D) wirklich die vertikale Tiefe 443 Seiten beträgt, vermuten würde ich da eher eine flache Hierachie.
Die sollte sich evtl. mit FlashGot abgreifen lassen. Damit kann man bekanntlich eine "Download-Galerie" erstellen, also durchnummerierte Grafiken automatisiert herunterladen.

Ich habs zwar noch nicht ausprobiert, prinzipiell sollte das auch mit beliebigen anderen Dateien möglich sein. Käme zumindest auf einen Versuch an. ;)
 
  • Thread Starter Thread Starter
  • #3
Danke schonmal, das schau ich mir später mal an wenn ich wieder Zuhause bin! Wichtig ist mir vor allem der Text, da ich alle Kommentare gern auf gewisse Stichworte durchsuchen würde. Das ist nur mit der Klickerei absolut zeitfressend, deswegen würd ich sie gern offline speichern und ggf. zu einer Seite kompilieren bzw. irgendwie einen "Fulltext" draus machen. Aber dafür muss ich die HTML(s) ja erstmal haben.
 
Zuletzt bearbeitet:
Das sollte ganz einfach mit wget funktionieren:
"wget -m -np -p --no-check-certificate -k https://www.openpetition.de/petition/kommentare/zukunft-verantwortung-lernen-kein-bildungsplan-2015-unter-der-ideologie-des-regenbogens"

Also die Optionen zu spiegeln, nicht auf übergeordnete Ebene wandern/ keinen Eltern links folgen, Anlagen downloaden (CSS, JS unter anderem), Links auf lokalen Pfad umwandeln, SSL Zertifikat nicht prüfen.

Der "-k" Switch wandelt dann die Kommentar Links auf den lokalen Dateipfad bei dir auf den Rechner um.

Wget findet sich hier:
 
  • Thread Starter Thread Starter
  • #5
@bevoller: Habs mal ausprobiert. Hat nicht meinen Vorstellungen entsprochen, danke trotzdem!

@theSplit: Wow, danke. Bisher siehts vielversprechend aus. wget läuft grad durch, was es mir bisher aber lokal gespiegelt hat, sieht sehr gut aus. Mal abwarten wie das Endergebnis wird. :T:T

Edit: Perfektes Ergebnis! Danke! Die entsprechenden Dateien des Kommentarverzeichnisses waren ohne Dateiendung, aber durch ne Batch ließen die sich schnell umbenennen. Jetzt schau ich mal nach nem Tool zur Auswertung der Inhalte. Top!
 
Zuletzt bearbeitet:
Hallo,

versuch mal ob httrack dir weiterhilft.



villeicht hilft es dir.

Grüße :)

MrHumax
 
  • Thread Starter Thread Starter
  • #7
Da bin ich nochmal - ähnliches Problem, selbe Website. Diesmal geht es um folgende Unterseite:

Das Erstellen eines lokalen Abbildes mit wget (mit den selben Kommandos die theSplit angeführt hat) funktioniert hier grundsätzlich, aber im Ergebnis fehlt etwas wichtiges. Und zwar funktioniert in der gespeicherten Datei die "ANZEIGEN"-Funktion, mit welcher sich weitere Textbeiträge anzeigen lassen. Ich denke mal die funktionieren mit JavaScript. Kann ich da bei wget etwas entsprechendes ergänzen oder verändern, damit die Funktion in meiner lokalen Spiegelung auch gewährleistet ist? Eigentlich speichert wget die JS der Seite scheinbar mit. Aber funktionieren will es trotzdem nicht.
 
Hallo,

ich habe eben nochmal geschaut - das Problem ist das die Kommentare mittels Ajax nachgeladen werden, diese befinden sich also für wget nicht auf der Seite sondern kommen immer aktuell aus der Datenbank von OpenPetition bei Knopfdruck auf "Anzeigen/Show".

Lokal verhindert dann Cross-Site Scripting das die Kommentare (alle Daten sind dafür vorhanden) von deinem Rechner aus mittels Javascript von einer dritten Domain abgeholt werden. Das kann man auch nicht umgehen. Da du nicht auf andere Domains außerhalb deiner Domain/lokalem Rechner mittels Javascript zugreifen kannst. Ich wüßte jedenfalls nicht wie. :/

Aber es kann gut möglich sein, das auch die Zugriffe auf die DB bei OpenPetition gegen Zugriffe außerhalb der Domain gesperrt sind, wenn man das Cross-Site-Scripting umgehen kann.

Ich würde dir auch empfehlen, falls du dir mehrere Seiten von Openpetition ziehen willst, den "-m" Switch raus zu nehmen, wenn das "mirroring" ausgeschaltet ist, ziehst du nur die eine URL(s), die du angibst als Parameter, und nicht die anderen Sprachen zusätzlich.
 
Zuletzt bearbeitet:
Zurück
Oben