GIGA Forum wird abgeschaltet

darksider3 · 12 Apr. 2018

Bin schon dabei. Wenn mich der Host nicht blockt ist das Thema morgen erledigt. :-)

EDIT: Wie, übrigens? So:

#!/bin/bash
wget \
--continue \
--recursive \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains forum.giga.de \
--show-progress \
--quiet \
forum.giga.de

--- [2018-04-12 17:55 CEST] Automatisch zusammengeführter Beitrag ---

Zwischenzeitlich sind dann die ersten 4GB unten, denke mal das wird nicht über 10-20 gehen?^^'

MRissler · 12 Apr. 2018

hammerhart. Bin auf das Ergebnis gespannt, wie browsebar das dann sein wird.
Vor 10 Minuten kam auf forum.giga.de "Datenbankfehler"... dann kurz gewartet und F5... nu gehts wieder. - Nicht übertreiben... : ]

darksider3 · 12 Apr. 2018

Kann sein, das der da gerade durch die großen Spam-Threads gegangen ist. Die Laden halt Langsam und erzeugen Arschvoll Last auf Servern. Dürfte nur das eine mal passiert sein

BurnerR · 12 Apr. 2018

Meine wget Kopie eines Forums hat 4GiB bei 30.000 Beiträgen... giga Forum hat ja 27.000.000 Beiträge ...

Gut, das war auch ne ganz eklige Forensoftware gewesen, für alles nen seperater Link. Aber dennoch, könnte was größer werden bei dir. Bin sehr gespannt!

PS.:Ich habe das gerade mal grob überschlagen und komme auf eine Größe von ca. 300Gib. Tendenziell eher mehr.

Vermutlich ist es ein guter Ansatz mit Whitelists und Backlists zu arbeiten und um nur 'Hauptansichtsseiten' zu speichern. Also z.B. alle Verweise auf Einzelbeiträge nicht, alle 'next topic' links nicht, etcetc.

Vor allem wenn du alle Links auf einzelne Beiträge speicherst (

You do not have permission to view link please Anmelden or Registrieren

, also "link#post1059386954")hast du dadurch schon über 200 GiB an Traffic / Speicherbedarf.

Und wer weiß was noch für querverweise schlummern, die jeweils einzelne Links sind.

darksider3 · 12 Apr. 2018

You do not have permission to view link please Anmelden or Registrieren

Hab 3,2TB übrig gerade. Hoffen wir trotzdem mal das beste

EDIT: Vielleicht habe ich ja auch einfach Glück.

EDIT2: Nach der aktuellen Geschwindigkeit würde ich eh am Tag nicht mehr als 30-50GIB kriegen(weil ich sonst den Server töte - siehe oben). Also mal hoffen das 4 Tage ausreichen. Viele kleine Anfragen dauern eben immer länger als wenig Anfragen und viel Content...

BurnerR · 12 Apr. 2018

Hm.

Also bei 27,000,000 Beiträgen sehe ich jeweils zwei Links die darauf verweisen, zum antworten und zum zitieren, wenn man sehr optimistisch von 15Kib pro Seite ausgeht, dann sind das knapp 250 GiB pro Verweis, also allein für diese Links 500 GiB die man sich spart, wenn man Links die eine Raute beinhalten ausschließt. Mal ganz davon abgesehen, dass das über 50,000,000 einzelne Dateien sind die herunter geladen werden müssen. Das Forum scheint ja ziemlich ausgelastet gerade, daher nehme ich an, dass du nicht seriell runterlädst.

sia · 12 Apr. 2018

yay DoS

darksider3 · 12 Apr. 2018

You do not have permission to view link please Anmelden or Registrieren

Ich hatte gerade zwischenzeitlich 120 Verbindungen/s versucht, musste wieder auf 40 runter, dann auf 20... Ich lade soviel, so schnell wie möglich, ohne den Server zu vögeln. Hoffentlich. Noch bin ich nicht beim Spam-Thread mit X-Tausend Beiträgen...

EDIT: Manchmal wünschte ich mir sehnlichst, das solche Seiten einfach einen RSS mit *allen* Geschichten hätte, oder besser: Download von Foren als ZIP/URL-Sammlung.

ÄHHHHHHHH... ich glaub gerade ist meine HDD abgeraucht.

MRissler · 13 Apr. 2018

Ohmann, das sind ja Größenordnungen @_@
Hoffen wir, daß die GIGA-Admins, sofern sich noch einer darum schert

, nicht den Abgriff verhindern. Im Log müßten sie ja sehen, daß eine bestimmte IP alle Links klickt. Im Grunde legitimes User-Verhalten. Bloß halt rund um die Uhr und so schnell nacheinander? Mit etwas Glück merkt es wirklich keiner, oder die denken sich schon sowas und lassen es einfach laufen. *__*

theSplit · 14 Apr. 2018

BurnerR schrieb:
Hm.

für diese Links 500 GiB die man sich spart, wenn man Links die eine Raute beinhalten ausschließt

Das sind Anchor Links - du kannst auch im HTML mit Regex [kw]<[\s]{0,}a.*href="[\#]*#[\>]*>[^<]*</a>[/kw] alle Links rausschmeißen, die einen Anchor enthalten - logischerweise sind das meist Sprungmarken innerhalb der gleichen Seite. Damit könntest du dir auch ein paar MB sparen wenn diese häufig genutzt werden, als Download und im HTML direkt was du speicherst.
Wenn du sicher gehen willst, das die Verweise innerhalb der Seite sind, würde ich die URL noch in den Regex als href="URL#" filtern. Eventuell mit oder ohne Domainnamen.

BurnerR · 14 Apr. 2018

Innerhalb der Datei danach zu suchen ergibt vermutlich wenig Sinn, da man sich nicht zwischen dem wget download und dem wget parsing schalten kann afaik.
Wget selber hat diesbezüglich aber recht ausführliche Möglichkeiten:

You do not have permission to view link please Anmelden or Registrieren

Jetzt hingehen und die html Files bearbeiten um paar MiB zu sparen.. wäre mir ein zu schlechter tradeoff, aber wenn man Bock drauf hat, wieso nicht.
Ich bin ein Fan vom Pareto Prinzip, also sich auf die 20% konzentrieren, dei 80% des Ergebnisses ausmachen.

Gerade bei einem großen Forum wie Giga lohnt es sich mMn, vor dem Download mal 1-2 Stunden die Struktur anzugucken und wget sinnvolle Parameter zu übergeben.

theSplit · 14 Apr. 2018

You do not have permission to view link please Anmelden or Registrieren

Gut, im Falle von Wget ist das in der Tat nicht wirklich machbar, aber wenn man zum Beispiel über PHP mit CURL scraped, kann man den Content herausfiltern den man nicht haben will.

Zum Beispiel:
<div id="footer-content">......</div>

Das sind 11459 Bytes die man pro HTML Seite spart die gespeichert wird, und das Teil taucht auf jeder Seite auf.

Gut, wenn man das erstmal sichern will, ist das (pre)Processing vielleicht fehlt am Platz, aus zeitlichen Gründen - okay - aber wenn man die Requests sowieso zeitlich limitiert, kann man auch etwas aufräumen. Der Footer-Teil enthält jedenfalls keine Informationen die für das Forum irgendwie relevant sind.

BurnerR · 14 Apr. 2018

Ja, ist sicherlich ein nettes nice-to-have bei Dutzenden Millionen von Dateien

.

sia · 14 Apr. 2018

theSplit schrieb:
HTML […] Regex

*kotzt in Schüssel*

Außer wenn du

You do not have permission to view link please Anmelden or Registrieren

willst, sollte man doch lieber xmlstarlet oder was ähnliches nutzen.

theSplit · 14 Apr. 2018

You do not have permission to view link please Anmelden or Registrieren

Ich glaube ich weiß auf was der Artikel anspielt, HTML ist symantisch oft nicht korrekt, fehlerhaft durch Usereingabe oder anders formatiert. a/> oder /a oder <br> oder </br> oder <br/> oder "<.........br............/>" (. = Leerzeichen) usw....

Da solche Links aber nicht unbedingt von Usern, sondern vom Forum selbst generiert werden, sollte man glaube, das diese einheitlich und korrekt sind

Okay, davon ist nicht auszugehen, aber ja.

Und jetzt lese ich mal den Artikel

sia · 14 Apr. 2018

You do not have permission to view link please Anmelden or Registrieren

Ich glaube eher, der Artikel spielt darauf an, dass Regexes in der Chomsky-Hierarchie Typ 3 (reguläre Grammatik – finite Automaten) sind, XML allerdings Typ 2 (kontextfreie Grammatik) – und eine Typ-3-Sprache nicht auf eine Typ-2-Grammatik angewendet werden kann.

(nein, tut er natürlich nicht, aber allein vom groben Drüberscrollen auf den Inhalt eines Textes zu schließen, ohne auch nur ein kleines bisschen gelesen zu haben… na ja.)

Siehe auch:

You do not have permission to view link please Anmelden or Registrieren

Und jetzt lese ich mal den Artikel

Ist wohl besser.

electric.larry · 14 Apr. 2018

Hat von euch jemand bei GIGA eigentlich einmal nachgefragt, ob die einen DB Dump rausgeben würden?

--- [2018-04-14 23:23 CEST] Automatisch zusammengeführter Beitrag ---

You do not have permission to view link please Anmelden or Registrieren

Der Artikel sagt eh so eindeutig: "Thus the question arises: Can regular expressions match only regular grammars, or can they also match more? The answer to this is both yes and no"

--- [2018-04-14 23:47 CEST] Automatisch zusammengeführter Beitrag ---

Der Artikel is echt super geschrieben und lustig zu lesen: So you can match it using regular expressions, contrary to popular opinion. But don’t forget two things: Firstly, most HTML you see in the wild is not well-formed (usually not even close to it). And secondly, just because you can, doesn’t mean that you should. You could write your software in Brainfuck, still for some reason you don’t.

Bruder Mad · 15 Apr. 2018

Es ist tot, Jim...

Zuckt doch noch...

theSplit · 15 Apr. 2018

You do not have permission to view link please Anmelden or Registrieren

Ich hab ihn dann auch gelesen.

- Zugegeben, das was ich schrieb war ein Schuss ins Blaue. Aber zumindest wenn das Regex zu starr ist, könnten Abweichungen für Fehler sorgen, wenn sie nicht bedacht sind, okay. Aber deswegen der Einwand, wenn das HTML sauber ist - kann Regex schon dabei helfen. Zumal auch wenn es "schnell" gehen muß. Und wenn man davon ausgeht das nicht User HTML vorgeben, sondern das Forum erlaubt und regelt was es zulässt und was geschrieben werden darf, ist der Aufbau vorgegeben (auch wenn sich das natürlich nach einem Update der Forensoftware ändern könnte...)

Und wie gesagt, ich meinte damit nicht, das gesamte HTML so zu filtern, sondern in dem Fall speziell Anchor Links - und daher auch der Einwand, vermutlich(!) werden diese vom Forum selbst generiert - wenn man natürlich im Postcontent auf Links stößt - die nicht eine "Forum URL" beinhalten, darf man diese natürlich nicht verwerfen, sondern dann sind als externe Links, die schön aufbewahrt werden wollen, zu behandeln. Aber wie gesagt, auch das lässt sich leicht prüfen nachdem man die Treffer des Regex bekommen hat und abgleicht.

Wobei ja und ja... im Post content ist das sowieso ein anderer Fall, wenn da User Links setzen wäre es natürlich reichlich dumm, diese auch zu filtern, selbst wenn sie "intern" sind.

Amixor33 · 15 Apr. 2018

Egal was am Ende raus kommt, ich sag trotzdem schon mal danke.

GIGA Forum wird abgeschaltet

NGBler

auf FL280

NGBler

Bot #0384479

NGBler

Bot #0384479

gesperrt

NGBler

auf FL280

1998

Bot #0384479

1998

Bot #0384479

gesperrt

1998

gesperrt

\''; DROP TABLE user; --

Pottblach™

1998

NGBler