• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

[Projekt] NGB-Statistik (Diagramme/Social Map/Interaktions View)

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
Ein kurzers Vorwort:
An die lieben Admins, falls heute im Laufe des Tages, der Server von meinem Account aus, des öfteren mit Requests beschert wurde, lasst bitte Nachsicht walten.

Ich habe heute ein kleines Analyse und Scraping Tool geschrieben, einmal zu Übungszwecken und zur "Studie"... (wer sich nicht gerne in Zahlen fassen lässt, sollte lieber wegschauen, es könnte knallharte Aussagen über "euch" gezogen werden...)

Das Programm wird allerdings nicht von mir veröffentlicht, also braucht niemand um seine "persönlichen Daten" (die ja schon öffentlich sind, wenn man sich die Mühe macht) Angst zu haben.

Es wird auch nichts veröffentlicht, außer es dient lediglich der statistischen Auswertung, später auch visuell. So der Plan....

Ein kleines Video dazu, das ich mal kurz showcasen möchte:

Edit: Note: (Am Anfang ist ein kleiner Bug, normalerweise sollte der Status dort angezeigt werden, aber nach dem editieren ging das nicht mehr, im Video wundert mich das nur, deswegen mache ich das mehrmals...) - auch waren die Zitate doppelt gewertet und die "Counter" wurden nicht resettet....



Bisher sind die Daten relativ simpel, aber aktuell wird bereits einiges erfasst. Allerdings auch nicht gespeichert.
Aber die Daten werden später in eine JSON/CSV überführt, mit denen eine Software gefüttert wird.

Das Programm, so die erste Schicht, eine "Social Roadmap" erstellen, wer spricht mit wem, wer wird häufig zitiert... wer bedankt sich oft - also die schön unbequemen Fakten.

Wenn das Programm funktioniert und mit Daten gefüttert werden kann, werde ich auch versuchen andere Statistiken mit einzubringen. So das Felder verglichen bzw. gegenübergestellt werden können.

Zur Entwicklung versuche ich jetzt C++ zu verwenden. Vermutlich werde ich versuchen, visualisierungen mit cairomm zu machen, die dann auch "Interaktiv" sein sollen... was Texteingabe und Userinput betrifft, so habe ich noch keine 100% Idee. Auf der einen Seite wäre ein GUI Framework für so eine Software vermutlich das beste, aber ich will mir nicht viele bzw, große Abhängigkeiten in die Software einarbeiten, so fern das nicht nötig ist. Das ganze soll schlang bleiben, aber natürlich auch nicht alles selbst machen - eine bzw. zwei kleines Libraries für Tastaturabfragen und Mausinput wären in diesem Fall gut.... oder ich versuche soweit wie möglich "native" zu entwickeln, vorzugsweise unter Linux.
 
Zuletzt bearbeitet:

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Klasse!
Ich seh da kein Problem damit, das Tool und alle Daten zu veröffentlichen. Du wertest schließlich nur frei verfügbare Daten aus. Im Gegenteil kann das dabei helfen, uns zu sensibilisieren mit welchen Infos wir hier herumschleudern im Glauben, "anonym" zu sein.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #3
Also nur kurz dazu, wenn es sensibilisiert ist das eine Sache, aber es soll nicht Leute nachdenklich machen jetzt bloß nicht mehr auf Danke oder "Zitieren" zu klicken... so ist das gar nicht gedacht.

Die Daten die ich hier in Zukunft verwenden will, dienen ausschließlich dazu ein Datenanaylse "Tool" mit Visualisierung zu entwickeln. Vielleicht versandet das auch bei mir.

Und wie schon angedeutet, ich werde den "Scraper" auch nicht veröffentlichen, so habe ich das nicht gedacht. Das Tool dient ausschließlich dazu, Daten als Grundlage für die Weiterverarbeitung zu gewinnen. Welche Rückschlüsse man daraus ziehen oder ziehen möchte, bleibt frei überlassen und es muß keine direkte Aussagekraft haben, die für das Überleben nützlich wäre oder gar eine Aussagekraft besitzt die authentisch wäre.

Sagen wir im letzten so, es ist für wissenschaftliche Zwecke und vielleicht den ein oder anderen "Aha oder Oho" Moment ;)

Aber ich danke dir für deine Unterstützung @BurnerR.
 
Zuletzt bearbeitet:

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Sehe ich aber wie Burner. Ist doch nur ein Crawler. Der ist schneller als ein Mensch, sieht aber nicht mehr.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #5
Nur das dazu, "abgerichtet" ist das Teil wirklich nicht, es ist plain und simple. :)

Auf Wörter wie du "du" oder "ihr" springt es nicht an, vor allem nicht in irgendeinem Kontext. Das kann "fast" nur ein Mensch, auch wenn es dahingend schon intelligete Software gibt - aber ob ich indirekt "über" bzw. "mit" jemanden spreche, nein, das bekomme ich mit meiner Lösung definitiv nicht heraus.

Das wäre zwar noch um einiges Interessanter, aber dafür ist das Ding einfach zu doof programmiert. :p
 

drfuture

Zeitreisender
Teammitglied

Registriert
14 Juli 2013
Beiträge
8.728
Ort
in der Zukunft
nunja ... wir haben auch einige Funktionen der neuen Suche hier abschalten müssen da sich die Leute beschwert haben das manche Informationen zu ersichtlich sind... also öffentlich einsehbar wenn man sich arbeit macht und einsehbar indem man ein Tool startet ist wirklich ein Unterschied den man nicht unterschätzen sollte.

@theSplit ich glaube so viele Anfragen kannst du gar nicht stellen ^^ - könnte nur sein das das du irgendwann geblockt wirst wegen ddos schutz ;D - Die Frage ist nur wenn du keine Daten veröffentlichst inkl. dem Tool wofür dann der Thread hier ist.
Zumindest allgemeine Ergebnisse könntest du veröffentlichen, können wir ja mal absprechen. Bzw. wie du beim Entwickeln vorgegangen bist.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #7
Hi :)

Also das eigentliche "Tool" befindet sich in Entwicklung, erst mal baue ich eine Datenkrake, die so viele Informationen wie möglich / nötig sammelt um mit irgendwas beginnen zu können.

Die eigentliche Auswertung soll dann in einer kleinen App erfolgen, die genau für solche Zwecke entwickelt werden soll, Social Media - also wer antwortet wem, wie häufig, wie oft, wann, wo.... bisher geschieht das alles ohne Kontext. Heißt, ich sammle nur die ersichtlichen Daten und davon so viel wie geht. Ist jemand gesperrt - gibt es gelöschte Benutzer, wie viele "Likes" hat jemand, und wie oft schreibt diese Person in dem Thema.

Solche Sachen ;)

Ich habe mal eine Demo der letzen Version aufgenommen:
 
Zuletzt bearbeitet:

cokeZ

Aktiver NGBler

Registriert
14 Juli 2013
Beiträge
4.435
Nettes Ding! Lass das mal über die Kneipe huschen und sieh zu wie dein PC explodiert :D

Und wie wir nun wissen, godlike schafft sich anscheinend am häufigsten neue Dinge an :D
 

dexter

Cloogshicer®
Teammitglied

Registriert
14 Juli 2013
Beiträge
5.315

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Das Video und das Thema Big Data sind mir vertraut.
Die Boardfunktionen aggregieren schon einiges.
Das Tool ist sicher noch besser, aber kein Hack und kein Hexenwerk.

Mehr hatte ich damit nicht sagen wollen.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #11
@theSplit ich glaube so viele Anfragen kannst du gar nicht stellen ^^ - könnte nur sein das das du irgendwann geblockt wirst wegen ddos schutz ;D - Die Frage ist nur wenn du keine Daten veröffentlichst inkl. dem Tool wofür dann der Thread hier ist.
Zumindest allgemeine Ergebnisse könntest du veröffentlichen, können wir ja mal absprechen. Bzw. wie du beim Entwickeln vorgegangen bist.

Jupp, ist mir eben passiert mit dem DDos Schutz :D - Irgendeine IP ist jetzt gesperrt....

Zum veröffentlichen, ich würde wenn überhaupt die Anwendung, die die Daten auswertet bzw. richtig visualisiert und in Kontext bringt veröffentlichen - deßhalb das Thema, nicht aber den "Scraper" (die aktuelle Darstellung der Zahlen ist nur zum Testen der Funktionen und ob die Zahlen stimmen!) - der "Scraper" dient nur der Datenaggregration und soll nur ein Tool für mich sein. Ich denke, wer das Forum auf diese Weise anzapfen will, sollte sich zumindest die Mühe machen, sich selbst Gedanken zu machen. Aktuell will ich das "Tool" jedenfalls nicht Publik machen. ;)

Auch zur Sache, bisher werden ja keine textlichen Inhalte gesammelt/mit einbezogen. Aber man "könnte" versuchen, eine Art "Map" der häufigsten Wörter in einem Thema zusammen zu stelllen. Und eventuell das gleiche für bekannte User machen.

Interessant wäre auch, das hatte ich ja schon kurz angedeutet, "wenn jemand jemand anderen direkt anspricht" und das Hits generiert - aktuell ist es so, das nur festgehalten wird, wie oft jemand Zitiert oder "(@)Benutzername" angesprochen wir von jemanden. Das sind ja eindeutige Referenzen.
Schwerer wird es dann wenn man sich auf den Inhalt bezieht, ohne sich auf die Person zu beziehen, also wenn es nur aus dem Kontext hervorgeht.

Wenn jemand "du", "ihr" oder "wir" schreibt - bezieht er sich ja auf eine Person ganz eindeutig, oder auf eine Gruppe von X Personen - wobei das bei einer Gruppe schon wieder schwerer zu identifizieren ist, wer damit gemeint ist, "zwei Personen", "alle" - da wird es etwas diffus. Da muß man sich darauf verlassen, das jemand zitiert oder Beiträge referenziert... beim "wir" nun ja... das gleiche eigentlich, kann aber auch "alle" meinen...

Aber das geht vermutlich schon wieder in die Sprachanalyse und dafür müsste man sich auch die "Postings" genauer ansehen bzw. diese "Griffbereit" halten oder "Zitate" auswerten...

Vornehmlich baue ich zwar auch einen Benutzerstamm auf, aber folgende Daten werden aktuell nur erfasst:
1. Benutzername
2. Referenzen (wie oft wird jemand genannt von anderen Personen)
3. Wie oft wird jemand zitiert
4. Wie oft bedankt sich jemand
5. Bei wem wurde sich oft bedankt
6. Wie viel Postings hat jemand
7. Ist jemand ein "stiller" Mitleser?
8. Ist jemand gesperrt?

Noch offen sind aktuell:
zu 2) wie oft bezieht sich jemand auf andere (nicht nur wird selbst erwähnt)
zu 3) Gegenpart, wer zitiert wie häufig?
- hat jemand eine besondere Rolle (Moderator/Admin)? Und wie ist die Beteiligung im Thema?

Was man noch mit rein nehmen könnte zur Allgemeinen "Unterhaltung":
Beiträge pro Seite oder zumindest die Durchschnittliche Anzahl von Beiträgen auf alle erfassten Seiten.
- seit wann ist jemand registriert
Und vielleicht auch, zu welcher "Uhrzeit" ist jemand durchschnittlich an den 7 Wochentagen aktiv?

Dies zu den Zahlendaten, der Inhalt ist nach wie vor außen vor. ;)

--- [2017-10-04 06:24 CEST] Automatisch zusammengeführter Beitrag ---

Das Tool ist sicher noch besser, aber kein Hack und kein Hexenwerk.

Mehr hatte ich damit nicht sagen wollen.

Nein, es ist in der Tat kein Hexenwerk, auch wenn ich einen Trick anwenden mußte damit man die Strukturen leicht und wirklich genau verarbeiten kann. ;)

Das sind wie gesagt aber nur vorbereitungen, richtig spanned wird nachher die Auswertung bzw. Darstellung der Informationen, wenn ich das ganze auch ein wenig Interaktiv bekomme, das man darin "navigieren" kann (also außerhalb des Browsers), stelle ich mir das schon ganz spannend vor.

Ich hoffe auch, das die Sache, dadurch das ich die Daten ja selbst zusammenstelle, nicht wie bei der "Big data Challenge 'Racing' von It-Talents" enden wird, sondern gleich mit den Daten loslegen kann.

Gewisse Grundvorbereitungen zu einer "Social Map" bzw. wie in einem Netzwerk abzubilden, gibt es bei mir schon in etwas C++ Code, das ist ein Thema weiter. ;)
Aber wird natürlich noch alles sehr spanned zu entwickeln sein und auch zu überlegen, wie man die Darstellung macht so das eine Userkarte entsteht - und dort Information wie an einem Whiteboard genutzt werden können.

Zum Teil könnte man es für ein Thema darstellen, oder mehrere Datensätze verknüpfen und einen "Überblick" generieren - da weiß man gleich wer mit wem gut kann und so :D
 
Zuletzt bearbeitet:

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Ehrlich gesagt fand ich Spiegel Mining auch eher unspektakulär bis auf die Geschichte mit dem Urlaub.
Hier im Forum wittere ich jedenfalls DEUTLICH größeres Potenzial. Und ich sehe das analog zu Schwachstellen: Transparenz ist besser als verheimlichen.
Dazu kommt ja, dass Anonymität im Internet hier so ein großes Thema ist. Aber über solche Side-Attacks wird so ziemlich nie gesprochen. Das man z.B. abschätzen kann, wann jemand hier im Urlaub war, den groben Tagesrhytmus abschätzen und sowas. Und das sind dann nur die Meta-Daten.
Da ist mir lieber, jemand wertet das mal ganz grausam aus, so das es richtig weh tut und dann hat das auch einen echten Lerneffekt.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #14
Es gab ein kleines Update:

So wird jetzt zwischen "anonymisiert" und "einfach" gelöschten Nutzern, die sich nicht haben anonymisieren lassen, unterschieden.
Jetzt werden alle (auch die nicht mehr angezeigten) Benutzer erfasst die sich bedankt haben, vorher waren es nur die wirklich "sichtbaren" aus der "Wer hat sich bedankt?"-Box....

Außerdem hab ich die "Teststatistik" etwas mehr aufgeräumt und versucht die neuen Zahlen ein wenig einzuarbeiten.



Auch eine kurze Info - ich werde keine Statistiken über die Onlinezeit über Monate hinweg erfassen, grundlegend nur einen 7 Tages Wert mit einer "durchschnittlichen" Uhrzeit - es wird also nicht herauskommen wann jemand Urlaub gemacht hat.... Ich denke ein Hinweis wann die Person im Schnitt online "gesichtet" wurde innerhalb des Tages oder "anzutreffen" sein sollte, würde vermutlich ausreichen... für alles andere müsste man vermutlich mehrere Themen "strategisch" unter die Lupe nehmen oder eben das gesamte Board abgraßen, was ich nicht tun möchte.

Ich würde mich ausschließlich auf den Inhalt von Threads konzentieren und dann Informationen von mehrere "Zusammenführen" lassen, so fern das Sinn macht, die dann "übergreifend" noch etwas aussagen können, aber wie gesagt auch nicht müssen.

Außerdem wäre es Wahnsinn zu versuchen, den Inhalt des Forum in dieser Form zu "ergattern".... um daraus Auswertungen zu machen.
Es ist viel Interessanter wie das Verhältnis in bestimmen Themen ist....

Interessant ist und war für mich eigentlich, wie sich jemand in einem bestimmen Thema "verhält" - wer ist Meinungsführer, gibt es diese? - Wer spricht mit wem (ohne die Auswertung zu treffen ob positiv oder negativ) oder wie ist die generelle Aktivität zu Tageszeiten, innerhalb des Themas, schreib jemand am Abend über Politik oder Früh morgens? Vielleicht während der Kaffee- oder Mittagspause? Gibt es andere "Trends", zum Beispiel die aktuell hinzugefügten, wie viele "gesperrte" Nutzer hat ein Thema "eventuell" verursacht? Oder auch, wie viele der Benutzer haben sich löschen lassen und wie viele davon anonym und wie haben sich die nicht nicht anonymen gelöschten beteiligt?

Denke das sind weniger Interessante Details, aber:
Veränderungen im Hintergrund gab es, auch wegen des DDos Schutzes. Außerdem sollte der Load verkleinert sein der an das Board oder andere Provider geht - zum Beispiel werden jetzt keine Bilder oder andere Ressourcen mehr "nachgeladen". So ist es dann minimal schneller weil Ladezeiten wegfallen, die nicht für die Auswertung erforderlich sind.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #15
Ein Zwischenstand:

Ich habe das letzte Wochenende viel an einer ersten Visualisierungsform in Javascript geschraubt, allerdings mit einer sehr naiven Implementierung, ohne ein "gekonntes" Clustering der Daten vorzunehmen, und ich muss sagen, stellenweise ist das ganz schön schwer, wenn man sich so gut wie gar nicht mit dem Thema beschäftigt hat und einfach mal denkt "ich programmiere drauf los".... eine anfängliche Visualisierung sah so zum Beispiel so aus:

Was hier betrachtet wurde, wie oft wurde jemand von anderen Zitiert, also Vorlagen dienten die ersten < 7 Seiten des Feinschmecker-Threads und "Loch durch die Erde Thema"

Und einfach nur ein simpler Zahlenvergleich, alles was sich nach "rechts" hin aufbaut wurde weniger Zitiert, aber alles was auf "0" Grad (rechts) verläuft, hat die höchste Anzahl, die darunter liegenden werden im Kreis verteilt, ganz Links mit dem roten Punkt ist in diesem Fall das "Zentrum".

Fällt die "Anzahl" gleich aus, so sollten diese eigentlich gleich mäßig von der aktuelle "Position" im Uhrzeigersinn verteit werden. Dazu mal ein paar Screenshots:









Bei manchem der Bilder sieht man relativ schön, wie ich mir das vorgestellt habe, aber wenn auch nur ein Unterschied ist, verschiebt sich alles bis ins endlose und es wird sehr schnell unübersichtlicht... also muss doch etwas anderes her. Daher auch Clustering, zu mal es auch interessanters ist wer mit dem "Übereinstimmt" (nein, das wird kein Matchmaking oder der Aufbau der "Singlebörse").

Ansonsten habe ich auch heute kurz an einer ersten Idee für ein eigenes "Datenformat" nachgedacht, welches ich verwenden will um die Daten irgendwie sinnvoll in ein Programm zu bekommen, das aber eine feste Grundstuktur besitzen soll, aber auch - so das Ziel, mit erweiterten Daten arbeiten kann. Da muß eine Beschreibung her.

Ein Beispiel mit einem Datensatz eines "anonym gelöschten" Users aus dem "Drogenpolitik"-Thread (könnte auch mehrere Nutzer sein), ich setze es mal in einen Spoiler...

Nur eine kurze Anmerkung "HEAD" ist der Kopf der den Datensatz glieder, "FIELDS Datenbereich" die Felder mit einem Text-Bezeicher. "KEYS Datenbereich" die einzelnen Wertebezeichner mit "Datentyp", der Aufbau ähnelt im Grunde einer CSV mit extra Features.

#HEAD
#*FIELDS USERS
''Benutzerdaten'':USERDATA
#/FIELDS USERS
#*FIELDS USERDATA
''Basisdaten'':BASE_DATA;''Vokabular'':WORDS;''Quotes'':QUOTES;''Referenzen'':REFERENCES
#/FIELDS USERDATA
#*KEYS BASE_DATA
''Name'':STRING;''Referenzen'':UINT;''Quotes'':UINT;''Danke'':UINT;''Bedankt'':UINT;''Posts'':UINT;''Eigene Quotes'':UINT;''Eigene Referenzen'':UINT;''Still'':BOOL;''Gesperrt'':BOOL;''Gelöscht'':BOOL
#/KEYS BASE_DATA
#*KEYS WORDS
''Wort'':STRING;''Anzahl'':UINT
#/KEYS WORDS
#*KEYS QUOTES
''Benutzer'':STRING;''Anzahl'':UINT
#/KEYS QUOTES
#*KEYS REFERENCES
''Benutzer'':STRING;''Anzahl'':UINT
#/KEYS REFERENCES
#//HEAD
#*USERS
#*USERDATA
#*BASE_DATA
deleted_users_not_anymore_present;deleted user(s);0;0;0;9;94;47;7;0;0;1
#/BASE_DATA
#*WORDS
''man'';81
''könnte'';8
''natürlich'';13
''sagen'';3
''dass'';66
''sowas'';5
''von'';86
''den'';51
''drogen'';15
''selbst'';16
''kommt'';7
''aber'';74
''warum'';8
''sich'';70
''die'';278
''schuld'';1
''geben'';12
''legalität'';1
''führt'';1
''auch'';105
''zu'';113
''einem'';21
''höheren'';1
''konsum'';3
''es'';110
''gibt'';28
''sicherlich'';4
''etliche'';2
''aufgrund'';3
''der'';133
''kriminalisierung'';2
''momentan'';2
''keine'';34
''kaufen'';3
''und'';201
''anderen'';21
''dingen'';1
''wie'';58
''zigaretten'';7
''oder'';64
''alkohol'';8
''greifen'';1
''ob'';8
''legalisierung'';9
''aller'';5
''substanzen'';1
''nun'';9
''wirklich'';12
''eine'';51
''besserung'';1
''darstellt'';1
''darf'';14
''doch'';43
''extrem'';7
''angezweifelt'';2
''werden'';34
''was'';37
''viel'';19
''mehr'';38
''sinn'';2
''machen'';8
''würde'';18
''ist'';131
''einfach'';27
''mal'';48
''versucht'';1
''um'';37
''zufriedenheit'';1
''leute'';2
''kümmern'';2
''aufklärung'';2
''schaffen'';1
''damit'';13
''diese'';17
''scheisse'';1
''jetzt'';8
''in'';71
''diesem'';2
''thread'';2
''hier'';22
''verharmlosen'';1
''Was'';9
''sind'';33
''das'';145
''für'';59
''Argumente'';5
''Sollen'';2
''wir'';17
''Mord'';1
''legalisieren'';5
''weil'';24
''ja'';25
''trotzdem'';8
''Mörder'';1
''Ist'';8
''halt'';13
''Natur'';1
''ne'';9
''Warum'';7
''Hanf'';3
''verboten'';1
''Psychosen'';5
''führen'';3
''kann'';51
''Gras'';8
''nebenbei'';1
''gesagt'';11
''einzige'';4
''illegale'';6
''Droge'';19
''wo'';9
''ich'';52
''mir'';20
''Legalisierung'';34
''vorstellen'';1
''Es'';21
''genug'';5
''Leute'';26
''angetrunken'';1
''betrunken'';2
''Auto'';6
''fahren'';2
''da'';24
''brauch'';1
''nicht'';175
''noch'';40
''welche'';4
''vorher'';2
''Tüte'';4
''durchgezogen'';1
''haben'';25
''gerade'';6
''Heroin'';1
''genommen'';2
''etc'';3
''pp'';2
''Ne'';2
''Drogen'';54
''Schwachsinnigste'';1
''bisher'';1
''gehört'';4
''habe'';11
''Cloud'';1
''so'';47
''nen'';16
''Mist'';1
''na'';1
''toll'';5
''hat'';38
''Nebenwirkungen'';1
''Genauso'';2
''Horrortrip'';1
''schieben'';1
''usw'';5
''soll'';7
''hinführen'';1
''Diejenigen'';1
''Erwägung'';1
''ziehen'';3
''wart'';1
''ihr'';5
''schonmal'';1
''Amsterdam'';1
''Ich'';21
''finde'';4
''dreckigsten'';1
''Städte'';1
''Welt'';2
''dort'';6
''dermaßen'';2
''viele'';14
''offensichtlich'';2
''Junkies'';2
''auf'';31
''Straßen'';1
''trifft'';1
''Eine'';6
''nahezu'';1
''gleichartige'';1
''Anzahl'';6
''Abhängigen'';1
''brauchen'';3
''Deutschland'';5
''By'';1
''the'';1
''way'';1
''siehts'';1
''mit'';78
''Vergewaltigungen'';2
''aus'';31
''Findet'';1
''Ihr'';2
''denke'';4
''wenn'';30
''alle'';8
''legalisiert'';9
''dürfte'';4
''wohl'';7
''Zahl'';5
''zunehmen'';1
''ein'';54
''jeder'';9
''weiß'';7
''inzwischen'';1
''Liquid-Ecstasy'';1
''im'';38
''Glas'';6
''Ahnungslosen'';1
''anrichtet'';1
''zum'';17
''Glück'';3
''derzeit'';4
''beschaffen'';2
''Das'';21
''Problem'';7
''außerdem'';1
''Möglichkeit'';1
''eigene'';3
''Handeln'';1
''Verantwortung'';2
''übernehmen'';2
''Wie'';9
''sieht'';12
''köpfen'';1
''LSD-Trip'';1
''war'';6
''dachte'';1
''sie'';18
''wollten'';1
''mich'';21
''töten'';1
''Ja'';2
''komplett'';4
''unzurechnungsfähig'';1
''Zu'';2
''dem'';37
''Argument'';7
''mitm'';1
''Strecken'';1
''an'';25
''illegalen'';4
''verrecken'';3
''vollkommen'';1
''okay'';1
''Taubenscheiße'';1
''rauchen'';4
''Körper'';2
''anrichten'';1
''muss'';18
''diskutieren'';2
''Anatomiesaal'';1
''waren'';4
''befragen'';1
''sollten'';4
''Junkie'';1
''aufm'';1
''Tisch'';1
''gehabt'';1
''Seit'';1
SCHNIPP ---------------------------------------------------------------------------->>
#/WORDS
#*QUOTES
''lokbob'';1
''nero'';8
''bonepatrol'';1
''godlike'';6
''nerephes'';2
''saddy'';2
''hansolo'';1
''boesmann'';1
''equinox'';4
''fl0w'';1
''thehsa'';7
''simpliziss'';1
''hasennase'';1
''seedy'';2
''perpetuum.mobile'';1
''internationalbastard'';2
''kapitn'';3
''sp1xx'';1
''kenobi van gin'';1
#/QUOTES
#*REFERENCES
''nero'';2
''saddy'';1
''dark_rabbitz'';1
''braegler'';1
''codec'';1
''ungesund'';1
#/REFERENCES
#/USERDATA
#/USERS
 

James

Neu angemeldet

Registriert
13 Sep. 2017
Beiträge
78
Verstehe ich nicht. Spiders und Scrabbers Gibt es doch wie Sand am Meer. Selbst Passive und die Massen an OSINT machen doch das Projekt iwie sinnlos?
 
Zuletzt bearbeitet:

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #18
Es ist kein Problem eine Seite zu crawlen, je nachdem wie diese ausgelegt ist.

Es ist auch kein Problem sich über eine Software "dritter" Zugang zu verschaffen, wie mit "OSINT" - aber das scheint mir eine generischer Anwendungsfall zu sein, ohne überhaupt auf das Problem eingehen zu können, das man sich selbst oder anderen stellt.
Es versucht alle Fälle abzudecken?

Was ich hier versuche, das Projekt soweit zu führen, das ich aus Themen rückschlüsse ziehen kann. Es gibt diverse Formeln, soviel hab ich schon gelernt, die es ermöglichen eine Score abzubilden und etwas zu klassifizieren. Da kommt es aber auf die Fragestellung an.

Und warum ist das Projekt nutzlos? Weil man denkt, es gibt schon zig bessere, dann setz dich auf deinen Hintern, schau TV und sei glücklich, den Rest machen andere und das gibt es alles schon.

Für mich ist das zum Teil auch eine Übung, einmal die Sprache in der ich dann arbeiten will, und zum anderen neue Formate zu erfinden, die Daten zu verarbeiten und diese zu visualisieren.

Ich mache das aus Spaß, weil es mir gefällt, nicht weil ich böse Absichten habe, wer etwas genau nachlesen will, ich benutze keine Profildaten für Männlich/Weiblich oder die des Alters, ist das alles, so fern von dem betreffenden User angegeben, nachvollziehbar.

Jetzt aber auch mal in den Raum geworfen, vielleicht mache "ich" genau das besser, woran 10 andere Lösungen gescheitert sind oder "immer noch" scheitern.

Das wird oder soll eine bequeme Statistik für manche hier sein. Wer sich einem professionellen Scraper mit Webkit oder Curl anvertraut, oder was sonst genutzt wird, kann das gerne tun. Aber das ist mein Erfahrungswert, und den lasse ich mir nicht nehmen.
 

James

Neu angemeldet

Registriert
13 Sep. 2017
Beiträge
78
Stimmt. Als Uebung bestimmt sehr gut. Was mich mal interessieren wuerde ist, ob es Engines fuer API-Keys gibt, so dass man diese dann in die Scans nur noch zu implementieren braucht. Das registrieren und copy'n'pasten ist so muehsam. Fuer mich mach es halt mehr Sinn, ein bereits gutes Projekt zu verbessern, als ein schlechteres zu machen. Aber wenn man dies zur Uebung macht, absolut keinen Einwand.
 

Shodan

runs on biochips

Registriert
14 Juli 2013
Beiträge
661
Ort
Citadel Station
Interessantes Projekt.
Aber als Datenschützer lasse ich den Ententest über dieses laufen:

1. Benutzername
2. Referenzen (wie oft wird jemand genannt von anderen Personen)
3. Wie oft wird jemand zitiert
4. Wie oft bedankt sich jemand
5. Bei wem wurde sich oft bedankt
6. Wie viel Postings hat jemand
7. Ist jemand ein "stiller" Mitleser?
8. Ist jemand gesperrt?
Name, Person, jemand, wem, Mitleser <-- begriffe die natürliche Personen implizieren

--> looks like data protection is relevant

Im Projektthread wird Datenschutz angesprochen. Insbesondere der organisatorische Teil: Schutz des Zugriffs auf die Daten und entwickelten Tools. Aufklärung über die Art der Daten und den Zwecke der Datenverarbeitung. :T

--> quacks like data protection is relevant

Der Zweck der Datenverarbeitung scheint Profilbildung zu sein:
Interessant ist und war für mich eigentlich, wie sich jemand in einem bestimmen Thema "verhält" - wer ist Meinungsführer, gibt es diese? - Wer spricht mit wem (ohne die Auswertung zu treffen ob positiv oder negativ) oder wie ist die generelle Aktivität zu Tageszeiten, innerhalb des Themas, schreib jemand am Abend über Politik oder Früh morgens? Vielleicht während der Kaffee- oder Mittagspause?
--> swims like data protection is relevant

Ergebnis


Ich nutze gerne noch einen anderen Test:

Sehen Sachen, die ich mache, wenn man großzügig abstrahiert, ein wenig so aus als ob sie in Widerspruch zu meinem Ziel stehen?
Für mich ist das zum Teil auch eine Übung, einmal die Sprache in der ich dann arbeiten will, und zum anderen neue Formate zu erfinden, die Daten zu verarbeiten und diese zu visualisieren.
Die Daten die ich hier in Zukunft verwenden will, dienen ausschließlich dazu ein Datenanaylse "Tool" mit Visualisierung zu entwickeln. Vielleicht versandet das auch bei mir.

Ergebnis: Energie aufzuwenden um zu begründen warum DuckInterface nicht implementiert werden muss steht im Widerspruch zu dem Ziel Skills im Bereich "Implementation von Interfaces" und "Datenanalyse" zu erlernen. (Note: ein Gedankenexperiment. Ich möchte nicht implizieren, dass jemand anderes außer mir selbst tatsächlich Energie in diesem Sinne aufwendet)

Datenschutz ist ein Skill. Kommt zu uns, werdet Datenschützer. Wir haben Kekse.

Als Softwareentwickler verstehe ich, wenn du dich in deiner Übung auf Sprache und Visualisierung konzentrieren möchtest und ich kann auch voll und ganz nachvollziehen, warum du dir diese Daten ausgesucht hast: die Daten sind vorhanden, sie sind interessant, und du bekommst garantiert Feedback (Motivation). Klassisches Beispiel für Daten wecken Begehrlichkeiten. Ich kann daher akzeptieren, wenn du die Implementation von Datenschutz auf Code-Ebene als Out-of-Scope siehst. Vielen Dank nochmal dafür, dass du Datenschutz auf organisatorischer Ebene beachtest. (Scrape this :p with your brain)

Wer Systeme entwirft, die personenbezogene Daten verarbeiten, sollte entsprechende Schutzmechanismen implementieren.
Das fängt mit ganz einfachen Dingen wie "Aggregieren", "Pseudonymisieren" und "Opt-In" an.
Nimm den Benutzername aus dem Datensatz heraus und ersetze ihn durch eine anwendungsspezifisches Pseudonym. Der Scraper erstellt dann eine Mapping-Tabelle "Username -> Pseudonym" die von den Profildaten getrennt ist. Schreibe die Teile des Programms hinter dem Scraper so, dass sie diese Mapping-Tabelle nicht verwenden. Schaffe Ausnahmen für Use-Cases in denen die Daten verwendet werden dürfen.

Nachteil: Nach dem Change sind die Profile nicht mehr so interessant, das Feedback sinkt, weil die Personen sich nicht mehr direkt als betroffen sehen. Es verliert Kontroversität. Damit es interessant bleibt, sind nun Use-Cases wie "NGB User möchte sein Profil sehen" oder "NGB User stimmt (nicht-) pseudonymisierter Veröffentlichung zu" implementiert werden.

Idee zum Nutzen von Synergien:
Erstelle einen Funktionsaccount, der einen Beitrag erstellt, bei dem durch ein Bedanken eine Zustimmung für die nicht-pseudonymisierte Nutzung erteilt wird. Scrape diesen um die Mapping-Tabelle in "pseudonymisieren" und "nicht pseudonymisieren" aufzuteilen.

Teile die pseudonymisieren Tabelle erneut in "aggregieren" und "nicht aggregieren".

Erstelle einen zweiten Beitrag mit dem ein Opt-In durch Bedanken realisiert wird. Wer sich für diesen bedankt erlaubt die pseudonymisierte, nicht aggregierte Verarbeitung.

Setz Datensparsamkeit um, indem du so wenig Daten wie möglich über User in der "aggregieren und pseudonymisieren" Tabelle sammelst. "10 weitere haben sich bedankt" muss bei diesen reichen. Wer, wann, warum und wofür bleibt privat.
- Sinnvollerweise werden diese nicht erst im Visualisierungstool verborgen, sondern schon aggregiert erfasst, die Teile der Anwendung hinter dem Scraper bekommen also ebenfalls nur "10 weitere", statt einer Liste mit 10 IDs.
- Optimalerweise verwaltet der Scraper die "aggregieren" Tabelle gar nicht erst (merke: das sind User die keinerlei Zustimmung erteilt haben) sondern löscht den gescrapten Username direkt nachdem er feststellt, dass dieser weder in der "pseudonymisieren" noch in der "nicht pseudonimiseren" Tabelle steht. Damit verhindert der Scraper, dass er selbst in der Lage ist irgend eine Relation zu entdecken, wenn er diesen Benutzernamen noch einmal sieht. Er muss die Daten also entweder aggregieren, oder für jedes Danke dieses Nutzers ein neues Pseudonym (Anonym) anlegen.

Dieser letzte Schritt hat aber einen nachteiligen Effekt für dein Ziel sich in Datenauswertung zu üben, denn ohne den Opt-In sehen deine Profile am Ende so aus:
10.000 mal
Relation:
x --Danke--> x+1
Profil x
- hat ein Danke gegeben
- hat kein Danke bekommen
Profil x+1
- hat kein Danke gegeben
- hat ein Danke bekommen
und sind damit völlig wertlos. Daher meine Bezeichnung als optimal: Die Berechtigung zur Verarbeitung wurde zu einem notwendigen Input.


Legal:

Ich, Shodan, verstehe mich als natürliche Person.
Die gescrapten Daten enthalten eine meiner global eindeutigen Online-Kennungen.
Die verarbeiteten Daten enthalten Merkmale meiner sozialen Identität.
Beide Datensätze verstehe ich daher als personenbezogen im Sinne der DSGVO.

Die Verarbeitung meiner Daten gestatte ich ausschließlich im Rahmen der Boardregeln. Jede darüber hinausgehende Verarbeitung ist strikt untersagt.
Ich lege großen Wert auf den Schutz meiner Privatsphäre und möchte diese geachtet wissen.

(deprecated Opt-in - removed 10.12.2017)
Ich gewähre theSplit ein explizites, nicht übertragbares, Recht die von mir im NGB veröffentlichten Daten durch automatisierte Verfahren zu sammeln, zu speichern und zu verarbeiten, sofern dies zum Zweck der Übung oder Wissenschaft geschieht. (Einwilligung nach DSGVO 6.1.a, sofern anwendbar).

Eine Veröffentlichung der gescrapten Daten sowie der verarbeiteten Profile, sowohl pseudonymsiert, als auch nicht pseudonymsiert, erlaube ich theSplit unter folgenden Bedingungen:
1. Die Veröffentlichung findet im NGB oder als Teil einer wissenschaftlichen Arbeit statt.
2. Die Veröffentlichung einer besonderen Hervorhebung auf mich bezogener Daten (Beispiel "Case Study in einer wissenschaftlichen Arbeit des Fachbereichs Computer-Forensik") erfordert eine weitere explizite Zustimmung, da ich mir das Recht vorbehalte in diesem Fall Daten zu berichtigen oder zu löschen.

Anderweitiger Nutzung meiner Daten, insbesondere zu kommerziellen Zwecken, widerspreche ich auf Basis des Artikel 21 DSGVO, sofern anwendbar.



Aber hab keine Sorge, die EU spannt kein bürokratisches Red-Tape um dein Hobby:
DSGVO Artikel 2 Absatz 2 Buchstabe c
Diese Verordnung findet keine Anwendung auf die Verarbeitung personenbezogener Daten durch natürliche Personen zur Ausübung ausschließlich persönlicher oder familiärer Tätigkeiten.
#GründeGegenDuckInterface




[/Sensibilisierung]

Viel Spaß und viel Erfolg :T
 
Zuletzt bearbeitet:
Oben