• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

[Projekt] NGB-Statistik (Diagramme/Social Map/Interaktions View)

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Dabei ist es noch recht wenig aussagekräftig, wenn man nur für einzelne Threads anschaut, wer wen wie oft zitiert hat.

Ganz etwas anderes wäre aus meiner Sicht, wenn man bei einem User auf "Beiträge ansehen" gehen würde, diese komplett ausliest und dann eine Volltext suche laufen lassen würde.
Was sagt der User zur AfD oder zu Flüchtlingen?

Auch die Metadaten eines einzelnen Users ergäben einen schönen Graphen.
a) einfach: x als Tage und y für die Anzahl der Beiträge
b)schon besser: x als Tage und y als 24x60 Punkte um die Posts zeitlich nachzuvollziehen.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #62
...aber nach MEINEM Dafürhalten fühlt sich das ganze Ansinnen innerhalb genau diesen Boards total falsch an...
...und ich z.B. bin ausschliesslich hier unterwegs um mich gut zu fühlen...

Ich kann das absolut nachvollziehen, ich will auch niemanden damit den Spaß verderben hier zu schreiben oder sich zu beteiligen.

Aber eine Auswertung der zugänglichen Daten, würde im Endeffekt aufzeigen, wie viel Informationen man bereits preisgibt über sich/seinen Account bzw. wenn man gewisse Sachen in einen Kontext setzt, was ein Mensch auch sehen kann, wenn er mit einer gewissen Motivation ein Thema betrachtet und durchgehen würde oder explizit nach jemanden sucht.

Es eröffnet ja auch keine Geheimnisse die nicht auch ohne Software/Werkzeuge ersichtlich wären, Software und Mensch haben die gleichen Informationen, das ganze ist nur etwas unemotionaler und nüchterner auf der Softwareseite und basiert dann halt auf harten Zahlen und oder Berechnungen, anstatt das ein Mensch dahinter sitzt der aus dem Kontext ersieht, "jemand war hier ironisch/sarkastisch/polemisch" - was aus einem Kontext bzw. dem Gesprächsverlauf kommen würde.

Und das einzige was "hier" passieren würde, das statt eines Menschen der ein Thema durchgeht und sich seine Zusammenhänge spinnt, es eine Maschine/Software regelt soweit möglich.


Dabei ist es noch recht wenig aussagekräftig, wenn man nur für einzelne Threads anschaut, wer wen wie oft zitiert hat.
Daher die Idee, Datensätzen kombinieren zu können, die Grundstruktur bleibt ja irgendwann gleich, ein Format dazu habe ich mir auch schon "ausgedacht"... zumindest so wie ich dann auch erlauben könnte, die Daten and Datentypen zu klassifizieren.

Ganz etwas anderes wäre aus meiner Sicht, wenn man bei einem User auf "Beiträge ansehen" gehen würde, diese komplett ausliest und dann eine Volltext suche laufen lassen würde.
Was sagt der User zur AfD oder zu Flüchtlingen?

Das wäre zwar in gewisser Weise vielleicht möglich.... aber Volltextsuche hat meiner Meinung nach das Problem, das du wissen mußt nach was genau du suchst, und es würde ein komplette Profil erstellen, darum geht es aber nicht. In dem Kontext, das mich ein Thema interessiert,, zum Beispiel "Politik und Gesellschaft" -> "Drogenpolitik" - ist es für mich doch unerheblich ob jemand anderswo über "VW Golf 2" schreibt oder "umgebaute VW Busse"... in erster Linie geht es um ein Thema und was dort gesagt wird, da hat es auch Aussagekraft. - Ob jetzt jemand (tue ich auch manchmal) in einem anderen Thema auf das selbe Thema eingeht, obwohl das Thema ein anderer ist, liegt außerhalb des möglichen bzw. dessen, was ich aktuell tun möchte.

Das Kombinieren von Themen wäre hingehend nur dann interessant, wenn man das mit den "Wer hängt mit wem dicht beieinander" (Zitate, +-Danke)- Kombiniert, dann aber bezogen auf mehrere Themen in einem Forumsbereich, zum Beispiel 3-4 Themen im P&G.

Auch die Metadaten eines einzelnen Users ergäben einen schönen Graphen.
a) einfach: x als Tage und y für die Anzahl der Beiträge
b)schon besser: x als Tage und y als 24x60 Punkte um die Posts zeitlich nachzuvollziehen.

Die Postingzeit habe ich so noch nicht erfasst, rein der Vollständigkeit halber sollte man dies aber auch mit rein nehmen. Danke für den Hinweis.
Die Idee zur Umsetzung, wäre wohl auch möglich, wobei mein erster Gedanke wäre, das nicht auf X als Tage laufen zu lassen, sondern ein Wochenprofil zu erstellen, heißt, X ist ein Fixwert von 7 Tagen und auf einer 24 Stunden Y Achse werden die Postingzeiten markiert.
Weil je länger ein Thema an Tagen wird, desto "größer" wird die Breite der Daten... genauso kann man nicht "stupide" aufs Thema betrachtet, nach der Postingzahl gehen, ich glaube hier muss man die Daten anders betrachten. außerdem geht es ja nicht darum zu sagen, am 24.10 war jemand circa. 1 oder 2 Stunden aktiv (2 Beiträge mit 1-2 Stunden "Pause" im Thema) und am 25.10 um 20 Uhr und 23 Uhr im Thema aktiv, das hat ja meiner Meinung nach weniger Relevanz als wenn man das auf eine Woche reduziert.

Zum Thema Bundestagswahl, wäre das allerdings wieder doch etwas interessanter... wie du es vorschlägst. - Steht und fällt wohl was man sucht.

Zum Beispiel, wann war die höchste Postingfrequenz, und wann die geringste "Beteiligung" bzw. wie hat sich das entwickelt (Trend), dann aber für alle Zusammengefasst betrachtet und nicht "pro Benutzer".
Es geht nicht darum zu erfahren ob jemand Urlaub hatte, Krank war oder viel Freizeit hatte oder sonst was.... ;) - zumindest "pro User", für eine Themenstatistik wäre das wieder relevanter.
 
Zuletzt bearbeitet:

abflussrohr

Hat keine Zeit :(

Registriert
4 Aug. 2013
Beiträge
104
Ort
Frankfurt
Haha, das macht Spaß, in einem riesigen Berg Daten Korrelationen zu suchen. Ich hoffe sie passen alle in den Speicher, damit man schön rumslidern kann. Ich hab so was mal vor Jahren mit den kompletten Wikipedia-History-Daten gemacht (die damals leider nicht komplett in den Speicher gepasst haben). Bin gespannt welche kurzweiligen Ergebnisse das zutage fördert :beer:
 

Roin

Freier Denker

Registriert
22 Juli 2013
Beiträge
581
Ich will auch mal meinen Senf dazu geben. Allerdings deutlich kürzer als hier so der ein oder andere Beitrag ist. Immerhin habe ich gerade über eine Stunde gebraucht diese Monsterbeiträge zu lesen.

@theSplit:
Schönes Projekt und ich verstehe auch, dass du erstmal eine Datenbasis aufbauen möchtest, anhand du dann schauen kannst, welche Fragen und besonders wie sie sich mit diesen Daten beantworten lassen. Ganz interessant und von meiner Seite aus ein ganz plausibles Projekt.

@Shonan:
Man o man. Da holst du aber direkt die ganz große Datenschutzkeule raus mit den einzelnen Artikeln und so. Ein schöner Exkurs aber, dass das hier so ausartet, habe ich nicht erwartet.

@Anonymitäts-Fanatiker:
Alles einsehbar, alles schon von Google und anderen Crawlern verdichtet. Das ist alles schon passiert. Nichts neues also. Man muss nur wissen, wo man suchen muss.

---
Generel:
Schade, dass ein Programmierthread zu einem Datenschutz-Thread wurde. Ja, ich verstehe den Zusammenhang und sehe ihn auch als wichtig an, aber so heftig? Naja - ich bin ja bei weitem nicht die einzige Meinung hier.

Nochmal @theSplit: Schade, dass du bereits von vorne herein einer "Veröffentlichung" der Daten vorbeugst. Mich hätte das durchaus interessiert oder auch gerne die Entwicklung des Crawlers und der eventuellen Datenbank usw. dahinter interessiert.

So - viel zu lang geworden. Ich werde wohl nur noch überfliegen, wenn überhaupt.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #65
@Roin:
Hi,

danke für deinen Beitrag. Ich kann das Thema Datenschutz in so weit glaube ich nachvollziehen, als das niemand in einer DB oder in einem Datenformat mit seinen Informationen, außerhalb des Forums "veröffentlicht" werden möchte**

Allerdings steht das nach wie vor im Krassen gegensatz zu Googles "I cache you"-Policy.
Wenn das Forum mal down gehen sollte oder jemand seine Beiträge löscht oder seinen Benutzeraccount - wäre es bei nicht aktualisierten Themen in "anderen" Archiven oder erst mal nur Google möglich diese Information zu bekommen, es reicht die Suche nach einem Satzbau.

Im weiteren kann ich auch verstehen wenn Leute damit ein Problem haben sollten, in eine Ecke gedrängt zu werden, durch eine Fragestellung - die ein Problem für sie schafft (zum Beispiel wer wettert am lautesten "gegen" Flüchtlinge") oder welche Wortwahl dominiert bei jemanden im "AfD Erfolge?"-Thema. Das kann alles sehr unbequem sein. - Aber deßhalb schrieb ich ja, das kann ein Mensch genau so bzw. noch viel genauer, wenn sich jemand die Mühe macht.

Wie du selbst sagst ergeben sich die Fragen an den "Datensatz" in so fern on-the-fly, ich habe leider keinen Fragenkatalog erarbeitet, den ich hier präsentieren kann, was genau man "abhängig vom Thema" fragen bzw. mutmaßlich beantworten könnte oder was ich letztendlich glaube "Schlussfolgern (lassen) zu können".

Und klar, jetzt kann man sagen das die Speicherung außerhalb des Forums auch gegen etwas verstößt, aber siehe Google, wird da irgendwas zensiert? Der Großteil rühmt sich mit Anonymität, was ja auch zutrifft so fern meine keine Daten heraus gibt die auf einen selbst Rückschlüsse ziehen lassen... aber dafür wäre man doch selbst verantwortlich. Google sagt ja auch nicht "sorry Sucher, der User XY ist nicht indiziert mit Posts", "weil der nicht anonym ist"...
Von daher sehr widersprüchlich. ;)

Allerdings, da bin ich mir nicht sicher, kann man im Gegensatz zu einem auf "Portal X" (ich sage mal Github) hochgeladenen Datensatz einfach sagen "lösch das", weiß aber nicht wie viele Kopien es schon gibt... - aber ich weiß auch nicht wie Google das behandelt, wenn jetzt eine Löschanforderung von einem Forumbevollmächtigten kommen würde. Und natürlich weiß man auch darüber nicht wie viele Kopien es von den Daten überhaupt gibt oder wer oder was so etwas verwendet. (Ohne den Aluhut aufzusetzen).

Sorry, wenn der Beitrag etwas lang ist, aber ich wollte das noch einmal ergänzen, da ich das Thema "Datenschutz" in so fern aber ernst nehmen würde.


**, schon gar nicht über einen Downloadlink - dem Wunsch würde ich grundsätzlich auch nicht widersprechen - daher auch diese Opt-out Kiste. Wenn es wirklich aber mal so weit kommt.... sollte man (bzw. ich) das sicherlich noch viel "offizieller" machen bzw. auch hier mit der Moderation/Administration abklären, aber dann wird man auch mehr zum Projekt sagen können, auch etwas was mehr Hand und Fuß hat. Aber aktuell liegen gerade andere Dinge auf der Agenda und der Fortschritt im Projekt ist ziemlich langsam bis nicht vorhanden.
 

dexter

Cloogshicer®
Teammitglied

Registriert
14 Juli 2013
Beiträge
5.306
@Anonymitäts-Fanatiker:
Alles einsehbar, alles schon von Google und anderen Crawlern verdichtet. Das ist alles schon passiert. Nichts neues also. Man muss nur wissen, wo man suchen muss.
Du mich auch.
Immerhin habe ich gerade über eine Stunde gebraucht diese Monsterbeiträge zu lesen.
Hast Du nicht. Ok, vlt hast Du iwas gelesen, nur hast Du da keine Stunde gebraucht (es sei denn, Du liest seeeehr langsam). Verstanden hast Du jedenfalls nix.
 

Meta

gesperrt

Registriert
11 Feb. 2017
Beiträge
1.379
Ort
Ostberlin
theSplit redet über ein Projekt, das er vorhat.
Müßte er ja nicht, könne einfach machen.
Ist absolut okay :T
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #72
@Shodan, ein wenig Angst machst du mir doch.... Cy....borg.... :D
 

sia

gesperrt

Registriert
26 März 2015
Beiträge
5.931
Ort
FFM (NSFW)
Reicht es nicht eigentlich, die Daten mit einem Tool zu scrapen und dann https://gephi.org drüber laufen zu lassen?

Das macht ungefähr alles, was deine Visualisierung auch macht, nur in hübsch. Wenn dir dann in Gephi Funktionen fehlen, kannst du sie ja dort reinprogrammieren ;)

Den Scraper könntest du beispielsweise mit https://scrapy.org bauen und somit auch nicht das Rad neu erfinden. Python sollte schneller laufen als JavaScript im Browser. Alternative mit Javascript wäre, node.js zu nutzen.

EDIT: Vielleicht könntest du dich mit deinem Scraping auf ein unverfängliches Unterforum, beispielsweise https://ngb.to/forums/67-Threadspiele, beschränken?
 
Zuletzt bearbeitet:

electric.larry

\''; DROP TABLE user; --
Teammitglied

Registriert
13 Dez. 2014
Beiträge
4.549
Ort
Raum 43
Auf ein Unterforum beschränken? Mir kommt das ein bisschen so vor, als würde man sich die Augen zu halten und hoffen, dass einen die Anderen auch nicht sehen.

Die Daten sind ja bereits offen ersichtlich da, nur eben in einem anderen Format, nicht so schön aufbereitet.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #75
Aktuell ruht das auf Eis. ;)

Zur Performance kann ich nur sagen, das spielt nicht wirklich eine tragende Rolle für das Scraping, ich hab a) eine mickrige Internetanbindung und b) wird man nach zu vielen Requests erstmal kurzerhand gebannt (hat sich ja etwas mit dem DDos überschnitten)...

Wie dem auch ist,, von daher kann das Teil "sehr gemütlich" laufen...

Ich habs aber auch nicht mit 10.000 Seiten Thema probiert, sondern maximal 500-750 vielleicht.

Aber der RAM sollte schon etwas stemmen können... zu mal ja nicht die geschriebenen Sätze erfasst werden, sondern nur die Häufigkeit von Wörtern zu einer Person, für das gesamte Thema (Seiten übergreifend)

Und Gephi ist Java-Code - wenn es etwas gibt was ich nicht mag, geschweige denn, nicht kann, dann das ;)

Andererseits wäre es ein gutes Forschungsobjekt mit Features und Visualisierungen, wie man so etwas aufbaut. Falls ich nochmal plane die Weltherrschaft zu übernehmen. ;)
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Ich habe heute mal etwas rum gespielt. Dabei ist eine zeitliche Visualisierung der Posts der letzten 4 Wochen, bzw, der letzten 500 Postings herausgekommen. Jeweils für einen User.

cal3.png

cal2.png

cal1.png
 
Zuletzt bearbeitet:

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #77
Nett und auch die Visualisierung find ich lesbar. Aber wie hast du die Daten erhoben bzw. wie sind die Daten zusammengekommen? Ist das bezogen auf die letzten Posts in allen Themen oder auch mehrere Posts in einem Thema?
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Das sollten sämtliche Posts chronologisch sein. Ich habe nicht alle Foren und Threads durchsucht, sondern die Suchfunktion benutzt.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #79
Schlau. Ich hätte vielleicht noch auf "Neue Beiträge" getippt, aber wenn das auch so geht. ;)
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Ich sollte das wohl besser oben editieren. Jede Graphik steht für einen bestimmten User.
 
Oben