• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

GIGA Forum wird abgeschaltet

darksider3

NGBler

Registriert
18 Sep. 2013
Beiträge
393
Ort
/dev/sda
Bin schon dabei. Wenn mich der Host nicht blockt ist das Thema morgen erledigt. :-)

EDIT: Wie, übrigens? So:
#!/bin/bash
wget \
--continue \
--recursive \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains forum.giga.de \
--show-progress \
--quiet \
forum.giga.de

--- [2018-04-12 17:55 CEST] Automatisch zusammengeführter Beitrag ---

Zwischenzeitlich sind dann die ersten 4GB unten, denke mal das wird nicht über 10-20 gehen?^^'
 
Zuletzt bearbeitet:

MRissler

auf FL280

Registriert
11 Apr. 2018
Beiträge
70
Ort
Deutschland
:D hammerhart. Bin auf das Ergebnis gespannt, wie browsebar das dann sein wird.
Vor 10 Minuten kam auf forum.giga.de "Datenbankfehler"... dann kurz gewartet und F5... nu gehts wieder. - Nicht übertreiben... : ]
 

darksider3

NGBler

Registriert
18 Sep. 2013
Beiträge
393
Ort
/dev/sda
Kann sein, das der da gerade durch die großen Spam-Threads gegangen ist. Die Laden halt Langsam und erzeugen Arschvoll Last auf Servern. Dürfte nur das eine mal passiert sein :T
 

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Meine wget Kopie eines Forums hat 4GiB bei 30.000 Beiträgen... giga Forum hat ja 27.000.000 Beiträge ... :D
Gut, das war auch ne ganz eklige Forensoftware gewesen, für alles nen seperater Link. Aber dennoch, könnte was größer werden bei dir. Bin sehr gespannt!


PS.:Ich habe das gerade mal grob überschlagen und komme auf eine Größe von ca. 300Gib. Tendenziell eher mehr.

Vermutlich ist es ein guter Ansatz mit Whitelists und Backlists zu arbeiten und um nur 'Hauptansichtsseiten' zu speichern. Also z.B. alle Verweise auf Einzelbeiträge nicht, alle 'next topic' links nicht, etcetc.

Vor allem wenn du alle Links auf einzelne Beiträge speicherst (Beispiel, also "link#post1059386954")hast du dadurch schon über 200 GiB an Traffic / Speicherbedarf.

Und wer weiß was noch für querverweise schlummern, die jeweils einzelne Links sind.
 
Zuletzt bearbeitet:

darksider3

NGBler

Registriert
18 Sep. 2013
Beiträge
393
Ort
/dev/sda
@BurnerR: Hab 3,2TB übrig gerade. Hoffen wir trotzdem mal das beste :D

EDIT: Vielleicht habe ich ja auch einfach Glück. :D

EDIT2: Nach der aktuellen Geschwindigkeit würde ich eh am Tag nicht mehr als 30-50GIB kriegen(weil ich sonst den Server töte - siehe oben). Also mal hoffen das 4 Tage ausreichen. Viele kleine Anfragen dauern eben immer länger als wenig Anfragen und viel Content...
 
Zuletzt bearbeitet:

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Hm.

Also bei 27,000,000 Beiträgen sehe ich jeweils zwei Links die darauf verweisen, zum antworten und zum zitieren, wenn man sehr optimistisch von 15Kib pro Seite ausgeht, dann sind das knapp 250 GiB pro Verweis, also allein für diese Links 500 GiB die man sich spart, wenn man Links die eine Raute beinhalten ausschließt. Mal ganz davon abgesehen, dass das über 50,000,000 einzelne Dateien sind die herunter geladen werden müssen. Das Forum scheint ja ziemlich ausgelastet gerade, daher nehme ich an, dass du nicht seriell runterlädst.
 

darksider3

NGBler

Registriert
18 Sep. 2013
Beiträge
393
Ort
/dev/sda
@BurnerR: Ich hatte gerade zwischenzeitlich 120 Verbindungen/s versucht, musste wieder auf 40 runter, dann auf 20... Ich lade soviel, so schnell wie möglich, ohne den Server zu vögeln. Hoffentlich. Noch bin ich nicht beim Spam-Thread mit X-Tausend Beiträgen...

EDIT: Manchmal wünschte ich mir sehnlichst, das solche Seiten einfach einen RSS mit *allen* Geschichten hätte, oder besser: Download von Foren als ZIP/URL-Sammlung. :D

ÄHHHHHHHH... ich glaub gerade ist meine HDD abgeraucht.
 
Zuletzt bearbeitet:

MRissler

auf FL280

Registriert
11 Apr. 2018
Beiträge
70
Ort
Deutschland
Ohmann, das sind ja Größenordnungen @_@
Hoffen wir, daß die GIGA-Admins, sofern sich noch einer darum schert :D, nicht den Abgriff verhindern. Im Log müßten sie ja sehen, daß eine bestimmte IP alle Links klickt. Im Grunde legitimes User-Verhalten. Bloß halt rund um die Uhr und so schnell nacheinander? Mit etwas Glück merkt es wirklich keiner, oder die denken sich schon sowas und lassen es einfach laufen. *__*
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
Hm.

für diese Links 500 GiB die man sich spart, wenn man Links die eine Raute beinhalten ausschließt

Das sind Anchor Links - du kannst auch im HTML mit Regex [kw]<[\s]{0,}a.*href="[\#]*#[\>]*>[^<]*</a>[/kw] alle Links rausschmeißen, die einen Anchor enthalten - logischerweise sind das meist Sprungmarken innerhalb der gleichen Seite. Damit könntest du dir auch ein paar MB sparen wenn diese häufig genutzt werden, als Download und im HTML direkt was du speicherst.
Wenn du sicher gehen willst, das die Verweise innerhalb der Seite sind, würde ich die URL noch in den Regex als href="URL#" filtern. Eventuell mit oder ohne Domainnamen.
 
Zuletzt bearbeitet:

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Innerhalb der Datei danach zu suchen ergibt vermutlich wenig Sinn, da man sich nicht zwischen dem wget download und dem wget parsing schalten kann afaik.
Wget selber hat diesbezüglich aber recht ausführliche Möglichkeiten: https://www.gnu.org/software/wget/manual/wget.html#Recursive-Accept_002fReject-Options

Jetzt hingehen und die html Files bearbeiten um paar MiB zu sparen.. wäre mir ein zu schlechter tradeoff, aber wenn man Bock drauf hat, wieso nicht.
Ich bin ein Fan vom Pareto Prinzip, also sich auf die 20% konzentrieren, dei 80% des Ergebnisses ausmachen.

Gerade bei einem großen Forum wie Giga lohnt es sich mMn, vor dem Download mal 1-2 Stunden die Struktur anzugucken und wget sinnvolle Parameter zu übergeben.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
@BurnerR: Gut, im Falle von Wget ist das in der Tat nicht wirklich machbar, aber wenn man zum Beispiel über PHP mit CURL scraped, kann man den Content herausfiltern den man nicht haben will.

Zum Beispiel:
<div id="footer-content">......</div>

Das sind 11459 Bytes die man pro HTML Seite spart die gespeichert wird, und das Teil taucht auf jeder Seite auf.

Gut, wenn man das erstmal sichern will, ist das (pre)Processing vielleicht fehlt am Platz, aus zeitlichen Gründen - okay - aber wenn man die Requests sowieso zeitlich limitiert, kann man auch etwas aufräumen. Der Footer-Teil enthält jedenfalls keine Informationen die für das Forum irgendwie relevant sind. ;)
 

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Ja, ist sicherlich ein nettes nice-to-have bei Dutzenden Millionen von Dateien :D.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
@phre4k: Ich glaube ich weiß auf was der Artikel anspielt, HTML ist symantisch oft nicht korrekt, fehlerhaft durch Usereingabe oder anders formatiert. a/> oder /a oder <br> oder </br> oder <br/> oder "<.........br............/>" (. = Leerzeichen) usw....

Da solche Links aber nicht unbedingt von Usern, sondern vom Forum selbst generiert werden, sollte man glaube, das diese einheitlich und korrekt sind :p

Okay, davon ist nicht auszugehen, aber ja. :p

Und jetzt lese ich mal den Artikel ;)
 
Zuletzt bearbeitet:

sia

gesperrt

Registriert
26 März 2015
Beiträge
5.931
Ort
FFM (NSFW)
@theSplit: Ich glaube eher, der Artikel spielt darauf an, dass Regexes in der Chomsky-Hierarchie Typ 3 (reguläre Grammatik – finite Automaten) sind, XML allerdings Typ 2 (kontextfreie Grammatik) – und eine Typ-3-Sprache nicht auf eine Typ-2-Grammatik angewendet werden kann.

(nein, tut er natürlich nicht, aber allein vom groben Drüberscrollen auf den Inhalt eines Textes zu schließen, ohne auch nur ein kleines bisschen gelesen zu haben… na ja.)

Siehe auch: https://nikic.github.io/2012/06/15/The-true-power-of-regular-expressions.html

Und jetzt lese ich mal den Artikel
Ist wohl besser.
 

electric.larry

\''; DROP TABLE user; --
Teammitglied

Registriert
13 Dez. 2014
Beiträge
4.549
Ort
Raum 43
Hat von euch jemand bei GIGA eigentlich einmal nachgefragt, ob die einen DB Dump rausgeben würden?

--- [2018-04-14 23:23 CEST] Automatisch zusammengeführter Beitrag ---

@phre4k: Der Artikel sagt eh so eindeutig: "Thus the question arises: Can regular expressions match only regular grammars, or can they also match more? The answer to this is both yes and no" ;)

--- [2018-04-14 23:47 CEST] Automatisch zusammengeführter Beitrag ---

Der Artikel is echt super geschrieben und lustig zu lesen: So you can match it using regular expressions, contrary to popular opinion. But don’t forget two things: Firstly, most HTML you see in the wild is not well-formed (usually not even close to it). And secondly, just because you can, doesn’t mean that you should. You could write your software in Brainfuck, still for some reason you don’t.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
@phre4k: Ich hab ihn dann auch gelesen. ;) - Zugegeben, das was ich schrieb war ein Schuss ins Blaue. Aber zumindest wenn das Regex zu starr ist, könnten Abweichungen für Fehler sorgen, wenn sie nicht bedacht sind, okay. Aber deswegen der Einwand, wenn das HTML sauber ist - kann Regex schon dabei helfen. Zumal auch wenn es "schnell" gehen muß. Und wenn man davon ausgeht das nicht User HTML vorgeben, sondern das Forum erlaubt und regelt was es zulässt und was geschrieben werden darf, ist der Aufbau vorgegeben (auch wenn sich das natürlich nach einem Update der Forensoftware ändern könnte...)

Und wie gesagt, ich meinte damit nicht, das gesamte HTML so zu filtern, sondern in dem Fall speziell Anchor Links - und daher auch der Einwand, vermutlich(!) werden diese vom Forum selbst generiert - wenn man natürlich im Postcontent auf Links stößt - die nicht eine "Forum URL" beinhalten, darf man diese natürlich nicht verwerfen, sondern dann sind als externe Links, die schön aufbewahrt werden wollen, zu behandeln. Aber wie gesagt, auch das lässt sich leicht prüfen nachdem man die Treffer des Regex bekommen hat und abgleicht.

Wobei ja und ja... im Post content ist das sowieso ein anderer Fall, wenn da User Links setzen wäre es natürlich reichlich dumm, diese auch zu filtern, selbst wenn sie "intern" sind.
 
Oben