• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

[Projekt] NGB-Statistik (Diagramme/Social Map/Interaktions View)

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #21
@Shodan: Gut, also bevor ich anfange etwas zu veröffentlichen, werde ich einen Beitrag schreiben, der eine Möglichkeit gibt sich anonymisieren zu lassen, sollte es zu einer Veröffentlichung in einer Form kommen - also ein mögliches "Opt-out" Verfahren, wie du es so schön nennst. :)

Ich denke Burnerr hatte aber einen wichtigen Punkt gleich vorweg gebracht, die Daten sind für einen Menschen auch einsehbar. Das was der Scraper aktuell macht, kann auch ein Mensch. Profile werden nicht verarbeitet, da dies "nicht öffentlich" zugängliche Bereiche sind. Es musst also niemand befürchten das Profildaten mit verarbeitet werden und diese "Publik" gemacht werden...

Was man aber schon noch machen könnte... herausfinden ob sich mehr Männliche oder Weibliche oder "Korrupt" User in einem Thema aufhalten... wenn man dann doch das Profil mit aufnehmen will, zumindest um die Zahlen (ohne Benutzernamen) zu ermitteln oder das Alter, falls angegeben. ;)

Interessant könnte auch die Wortwahl sein bei einem Thema, aber wer sich 2-X Seiten Thema ansieht, kann dass auch schon in etwa abschätzen.

Die Daten sind also in so fern frei zugänglich, der einzige Unterschied - es wird maschinell gemacht und ist somit ein wenig "Hartnäckiger","logischer" und "konsequenter" als das es ein Mensch vielleicht über 10 Seiten sein kann der den Inhalt "verstehen" will.

Ich versuche natürlich nicht jemanden damit explizit bloßzustellen... das wäre eventuell ein Beigeschmack- aber das obligt der Wortwahl und dem Tonfall innerhalb des Beitrags bzw. dem innerhalb des Themas. Und im Grunde kann das ein Mensch noch ganz anderes interpretieren bzw. aus dem Kontext erkennen, was ich durch meine Wortstatistik "nicht" leisten kann. Jemand kann ja auch für oder gegen etwas argumentieren und dabei die Argumente/das Vokabular der Gegenseite verwenden bzw. aufgreiften- und das würde logischerweise genau so gezählt werden.

---

Ansonsten, ich stehe damit noch ganz am Anfang... und muss mich dabei noch in vieles einlesen.... die genannten Ideen "Diagramme, Social Map, Interaktions View" oder wie man es nennen mag sind nur einige Ideen die man visualisieren könnte, aber die Themen sind doch etwas umfangreicher als angedacht. Bzw. ist das nicht so trival.

Und dazu kommt, ich lerne C++ noch... heißt ich bin mir aktuell noch nicht einmal sicher, wie ich den Parser für die Rohdaten umsetzen sollte. Wird also ein steiniger Weg bis der erste richtige Code produziert wird.... ;)
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #22
Opt-Out Option

OPT-OUT Möglichkeit:

Wer möchte das seine Daten anonymisiert werden falls es zu einer Veröffentlichung für die angedachten, nicht kommerzielle Zwecke, kommt, soll sich bitte, in diesem Posting, bedanken.

Ich werde euch dann in dem gewonnenen Datensatz unkenntlich machen.

Nachtrag: Nur ich bitte zu berücksichtigen, das alle Daten die ermittelt werden, frei, für unregistrierte Betrachter, zugänglich sind.
Wie auch im Posting davor erwähnt.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #24
@Snake Pilsken: Bitte in Post #22 bedanken, wer seinen Benutzernamen anonymisieren lassen will.
 

dexter

Cloogshicer®
Teammitglied

Registriert
14 Juli 2013
Beiträge
5.305
Re: Opt-Out Option

Wer möchte das seine Daten anonymisiert werden falls es zu einer Veröffentlichung für die angedachten, nicht kommerzielle Zwecke, kommt, soll sich bitte, in diesem Posting, bedanken.
Ich halte das für eine schlechte Vorgehensweise, weil es alle die, die diesen Thread, das Vorhaben im Ganzen oder in Teilen oder auch die Tragweite nicht verstehen, nicht in die Entscheidung einbezieht.
Des Weiteren halte ich eine Diskussion ob opt-in oder opt-out für wichtig. Ich persönlich sehe ein Opt-out aus verschiedenen Gründen als No-go.
Edit: Richtige Vorgehensweise aus meiner Sicht ist: wer kein Opt-in gibt, ist zwingend zu anonymisieren. Ich werde Shodans Beitrag morgen noch einmal lesen, vlt. habe ICH dort etwas falsch verstanden </Zaunspfahl>
 

Shodan

runs on biochips

Registriert
14 Juli 2013
Beiträge
661
Ort
Citadel Station
Ich denke Burnerr hatte aber einen wichtigen Punkt gleich vorweg gebracht, die Daten sind für einen Menschen auch einsehbar.
Es ist egal, ob die Daten öffentlich sind, oder nicht. Es sind personenbezogene Daten und sie unterliegen daher dem Datenschutz. Personenbezogene Daten werden nicht zu "nicht personenbezogenen Daten" weil sie veröffentlicht wurden. Der Begriff OSINT kommt aus dem Umfeld us-amerikanischer Geheimdienste, nicht aus dem europäischen Datenschutzrecht. Wird aber sehr gerne vermischt. Die Frage, ob du die Daten aus einer öffentlichen Quelle hast, ist lediglich für deine Informationspflicht gegenüber den betroffenen Personen und deine Dokumentation gegenüber der Aufsichtsbehörde relevant.
Beides betrifft dich, dank DSGVO 2.2.c, (zum Glück) allerdings sowieso nicht. (Weitermachen!)
Den von dir erwähnten "Menschen" betrifft aus es dem gleichen Grund nicht: natürliche Person, Nutzung zu persönlichen Zwecken.
Das ist keine Generalvollmacht für alles und jeden. Sie gilt aber für dich und mich ;)


Opt-Outs sind technisch viel schwieriger und rechtlich deutlich problematischer wie Opt-Ins. Sowas macht man normalweise auf Drängen des Managements, mit dem unangenehmen Gefühl im Magen, dass die darauf setzen, dass die User sich nicht die Mühe machen den Opt-Out auch zu nutzen. Mein Tip: immer erst mal durch Legal prüfen lassen. Wenn Legal dann Einspruch erhebt, geht man zum Boss und verlangt eine Gehaltserhöhung, weil man der Firma geholfen hat sich nicht in den Fuß zu schießen (Legal bestätigt dir das).


Typische Fehler, die einen in eine rechtlich prekäre Lage bringen, wenn man so etwas beruflich macht:
- das Fehlen technischer und organisatorischer Maßnahmen um alle betroffenen Personen zu informieren. (Artikel 14)
- das Fehlen einer tatsächlichen Berechtigung zur Verarbeitung dieser Daten zu den genannten Zwecken (Artikel 6) (Die Existenz eines Opt-Outs impliziert an und für sich keine Berechtigung!)
- inkorrekte technische Umsetzung (z.B. wenn die Daten nach Widerspruch immer noch gespeichert und verarbeitet, und lediglich nicht mehr angezeigt werden) (Artikel 21 Satz 1)
- inkorrektes technisches Design (z.B. fehlende Verschlüsselung) (Artikel 32)


Kleine Anmerkung, da auch wissenschaftliche Zwecke angeführt wurde:
Artikel 89 schreibt technische Maßnahmen, wie zum Beispiel die Pseudonymisierung, für diese Ausnahme sogar vor. Wenn du sauber arbeitest, sind die NGB Benutzernamen (global eindeutigen Online-Kennungen) in dem Ergebnis der wissenschaftlichen Arbeit nicht mehr vorhanden. (Just in case you are actually doing this for the university and want a good grade)


Aber ich hatte #GründeGegenDuckInterface eigentlich angeführt, damit wir nicht über halb-gare andere Gründe reden müssen. Dieser eine reicht, solange du dich an dessen Bedingungen hältst.
Hey ich habe dir sogar die (überflüssige) explizite Erlaubnis gegeben, in der Hoffnung, dass du mich nicht als Gegner, sondern als Unterstützer wahrnimmst. :cool:

Ich will dich nicht abhalten, dir Ärger machen, Hürden in den Weg legen oder dich aus Versehen animieren aus Aktionismus was halb-gares zu implementieren.
Mir geht es schlicht darum zu informieren. #informatiker

Warum du mich als Unterstützer wahrnehmen solltest
Ich hab so viel Zeit mit diesem Beitrag verbracht, ich bin jetzt spät dran


Disclaimer:
Dieser Beitrag enthält meine persönliche Meinung über Dinge, die ich im Internet gelesen habe und sollte von niemandem als mehr als das betrachtet werden.
 

Brother John

(schein)heilig
Veteran

Registriert
1 Aug. 2013
Beiträge
235
@theSplit
Das Wichtige vorne weg: Ich möchte nicht, dass eine Profilauswertung von mir veröffentlicht wird, egal ob anonymisiert oder nicht.

Privatsphäre und Datenschutz sind dir ja offensichlich wichtig. Das Auswertungstool selbst hältst du ja schon für zu sensibel für eine Veröffentlichung. Absolut uneingeschränktes :T dafür! Für den Rest ein genauso uneingeschränktes :buh:.

Dass alle Daten prinzipiell öffentlich zugänglich sind, ist richtig, hat aber nichts zu sagen. Ein öffentlich lesbares Forum ist die eine Sache. Das war mir beim Anmelden klar und ist auch ok so. Ein hübsch analysierter und aufbereiteter Datensatz, wo sich jeder mit einem Klick ein – wenn auch grobes – Bewegungsprofil von mir anschauen kann, ist ein ganz anderes Kaliber. Den zur Verfügung zu stellen widerspricht doch exakt deiner Argumentation, warum du das Auswertungstool für dich behältst.

Und Opt-Out ist Rotz! Weils eine reine Gewissensberuhigung ist.

Opt-Out simuliert Zustimmung, die gar nicht existiert. Denn wie kann denn jeder einzelne betroffene Nutzer von seiner Out-Out-Möglichkeit erfahren? Er muss diesen Thread hier verfolgen. Was ist mit all den Leuten, die ins Programmierenforum noch nie reingeschaut haben und das auch nicht vorhaben? Die geben ja keine stille Einwilligung ab, sondern wissen einfach nichts davon. Ok, also eine globale Ankündigung. Bringt aber auch nichts. Was ist mit denen, die die nicht lesen, weil sie gar nicht mehr im Forum aktiv sind oder gerade nicht da (wegen Urlaub, Krankheit, Netzausfall, …)?

Ganz praktisch kommt dazu, dass das Opt-Out vermutlich nicht zu sinnvoller Anonymisierung führt. Zu erwarten ist doch, dass vielleicht eine Handvoll User Opt-Out machen. Bringt das jetzt was? Oder: Wie aufwändig ist es, die verschleierten Profile zu entschleiern? Höchstwahrscheinlich leicht bis trivial. Im Opt-Out-Posting steht hübsch aufgelistet, wer sich nicht zu erkennen geben will. Es geht also rein darum, diese Liste richtig auf die »anonymen« Profile zu verteilen. Und es reicht ein einziger eindeutiger Datenpunkt. Z.B. wenn sich aus einer Postingfrequenz-Auswertung ablesen lässt, dass an einem bestimmten Tag nur einer der Anonymisierten gepostet hat. Schon ist der erste Name zugeordnet. Da brauchts nicht mal ein automatisches Tool für.

Das ist übrigens kein spezielles Opt-Out-Problem, sondern kann umgekehrt auch bei Opt-In passieren, wenn fast alle den Opt-In wahrnehmen. Der Knackpunkt ist, dass die »anonymisierte« Usergruppe zu klein ist, um die Anonymität sicherzustellen.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #29
Ich kann es verstehen, ich kann alle Datensätze anonymisieren!

Es geht ja um die Frage: "Wie viel hat ein User" gesagt, das andere darauf zitieren, sich bedanken? - Da ist es auch egal, wer es ist.
Für meine privaten Zwecke kann ich die Daten ja einsetzen, das sehe ich mitlerweile auch ein, aber sobald ich damit "öffentlich" gehe - sollte alles "100%" verschleiert sein.

Die Information ob "theSplit" oder "user7412" (keine ID, sondern Zufall) die meisten Danksagungen erhalten hat, spielt keine Rolle.
Ich glaube das würde ich auch so handhaben! - da spielt eher das Vokabular eine Rolle.

Nur ihr solltet bedenken, die Informationen die ich abrufe sind keine Geheimnisse. Das geht mit jedem aufflimmern so.
Ich versuche nicht irgendwem an die Wand zu fahren, das sagte ich ja schon.

Und alles, was ich entwickeln sollte, bleibt für private Zwecke, es sei denn die "Anwendung" bekommt einen Testsatz.

Es kommt wohl auf die Fragestellung an, die man an den Datensatz stellt - und wie "wichtig es ist ob User theSplit" das geschrieben hat, oder nicht.
Die Frage erübrigt sich allerdings auch, wenn ich jedem User eine anonyme ID gebe, habe ich trotzdem alles verschleiert, aber der Sinn der Daten bleibt erhalten. Und dann ist es auch nicht auf die Frage reduziert, wer sich bei wem bedankt hat, das wird ja trotzdem klar.

Sagen wir, ich nehme einen Random Wert für das Thema, User 17214 ist nicht gleich 803.... aus einem anderen Thema.

Aber die Zusammenhänge, das wird mir gerade so klar, werden trotzdem klar.

Natürlich wäre es interessanter, wenn man jemanden auf seinen Benutzernamen reduzieren kann, aber ich kann verstehen, dass das eine Hemmschwellle ist. Und das vielleicht sogar unbedarft ausgenutzt wird, was nicht okay wäre.
 
Zuletzt bearbeitet:

The_Emperor

&#65279;

Registriert
17 Juli 2013
Beiträge
2.801
Re: Opt-Out Option

Ich werde euch dann in dem gewonnenen Datensatz unkenntlich machen.

Als ich mich hier im Forum angemeldet habe tat ich dies mit Kenntnis aller damit verbundenen Risiken. Ich finde dass dieses Projekt eine sehr gute Möglichkeit ist um einen groben Eindruck zu vermitteln welche Daten Facebook, Instagram, Youporn und diverse Onlinespiele über euch ermitteln und welche Zusammenhänge daraus erstellt werden können. Nebenbei bin ich mir auch sicher dass bereits mehr als ein Crawler dieses Forum erfasst und ausgewertet hat, was mit diesen Daten passiert sein mag und wo sie hingewandert sind weiß keiner von uns. Willkommen im Web 2.0!
 

Baer

Ottonormalverbrecher
Veteran

Registriert
15 Juli 2013
Beiträge
3.629
Das was der Stinkstiefel über mir sagt.

Gruß
Baer
 

Meta

gesperrt

Registriert
11 Feb. 2017
Beiträge
1.379
Ort
Ostberlin
Ich verstehe den Sinn des Projekts nicht. Technisch ist das doch trivial, eine Art relationale Datenbank, wie es wahrscheinlich Millionen gibt. Wo ist denn hier die Herausforderung?

Aus grundsätzlichen Erwägungen würde ich einer Erhebung oder gar Veröffentlichung meiner Profildaten immer widersprechen. Auch wenn ich weiß, dass ich mich effektiv nicht dagegen wehren kann.
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
@Meta:

Split greift nicht auf die DB zu, mangels Zugriff, sondern auf das Frontend.
 

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Die meisten Dinge sind trivial, bis man - warum auch immer - es plötzlich selber macht :D.

Im übrigen deckt "eine Art relationale Datenbank" nichtmal im Ansatz den Kern des ganzen ab.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #36
Ich finde gut dass das Thema diskutiert wird.

Auch wenn ich natürlich rein von meiner Position aus nicht mit so viel Gegenwind gerechnet habe... kann aber nachvollziehen das jemand, kommt wohl auf die Rückschlüsse an die gezogen werden, nicht unbedingt damit in Verbindung gebracht werden will.... ich weiß gar nicht, indexiert Google das Forum eigentlich?....

Ach, siehe an: https://www.google.de/search?q=test+site:ngb.to

Man möge Test durch einen beliebiges Wort ergänzen. Und die Themen sind sogar gecached.... seitenweise mit Usernamen. Also wenn man das Board nicht anzapft, braucht man nur den Google Cache bemühen.

Ich will nur damit sagen, selbst wenn ich eure Daten anonymisieren oder herauslösche, ihr seid schon bei Google hinterlegt mit allem was sichtbar ist. Das gilt für mich übrigens auch....

Man kann jetzt sagen, "google stellt aber keine (unbequemen) Zusammenhänge der Daten her" - in dem Punkt hab ihr Recht. Aber ich kann auch genau so suchen nach einem "Username" + "site:ngb.to" und finde vermutlich einiges und vor allem ist es irgendwo gespeichert wo ihr nicht mal mehr die Chance habt, euer Veto einzulegen.... oder selbst die Admins nicht mehr eingreifen können, wenn diese Daten ausgewertet werden.... weil eben diese auf den Googleservern liegen in Kopie!

http://webcache.googleusercontent.c...ten-test+test+site:ngb.to&gbv=1&hl=en&ct=clnk

oder https://www.google.de/search?q="theSplit"+site%3Angb.to

Anstatt das alle Angst habe sich verstecken zu müssen, obwohl hier alles öffentlich ist(!) - weil das unbequem sein könnte, sollte man sich überlegen was man in Zukunft anders machen sollte, wenn man darum besorgt ist das man hier oder bei Google oder sonst wo die Daten aus dem Cache liest!
Auch Google kann sich nicht gegen alles schützen....

Das soll jetzt keine Panikmache sein, aber wenn ihr ein Problem damit habt, auf etwas festgenagelt zu werden was ihr hier schreibt läuft etwas definitiv falsch!
Ihr wollt gelesen werden, aber ihr wollt keine Verantwortung dafür übernehmen.... unterstelle ich mal.

Und wenn es auf euch "zurückfeuert" (das tut es aktuell nicht mal), warum auch immer - dann ist das Geschrei groß ;)

Es ist nicht wirklich verführerisch, aber so lange hier Google indexiert (was eigentlich ein Vorteil sein soll), und die Daten auch noch "cached"! - Sehe ich schwarz dass wir alle nicht mal im entferntesten wissen, außer höchstens Google, was mit diesen Daten passiert oder wer oder was diese dort für Zwecke anzapft. Und wie gesagt, da kann kein Admin mehr etwas gegen tun... wer weiß ob nicht just in diesem Moment jemand dieses Posting indexiert/speichert oder gar analysiert... ;)
 
Zuletzt bearbeitet:

Brother John

(schein)heilig
Veteran

Registriert
1 Aug. 2013
Beiträge
235
theSplit schrieb:
Ich kann es verstehen, ich kann alle Datensätze anonymisieren!
Solange alle anonymisiert sind, hab ich auch kein Problem damit, wenn mein Datensatz dabei ist.

Dass Google indexiert und mit den gewonnenen Daten evtl. Dinge tut, das ist schon klar. Aber das ist doch etwas ganz anderes. »Der da drüben kümmert sich aber auch nicht um Datenschutz« ist keine Argumentation dafür, das selbst auch nicht zu tun.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #38
Solange alle anonymisiert sind, hab ich auch kein Problem damit, wenn mein Datensatz dabei ist.

[...] »Der da drüben kümmert sich aber auch nicht um Datenschutz« ist keine Argumentation dafür, das selbst auch nicht zu tun.

Wie gesagt, es ist nicht die Absicht jemanden offizell bloß zu stellen. Natürlich wäre es interessanter, wenn man das Kind beim Namen nennen kann, ich kann aber auch alle Grundlegend anonymisieren (wie vorher überschwenglich angedeutet) - und zwar nicht nach dem erscheinen im Thema (der Crawler ist Themenbasiert, nicht Boardübergreifend!), sondern mit einer eindeutigen Zufallsidentifikation - das wir nicht bei 1 anfangen, sondern zufällig. Und von Datensatz Thema zu Datensatz Thema unterschiedlich.

Es geht natürlich etwas Witz dabei verloren, aber für manche Fragestellungen ist es auch relativ egal wer - sondern nur im Zusammenhang mit Text, Fokus im Thema und Zustimmung oder Ablehnung (wenn man es Kontextbasiert macht).

Es kam auch die Frage in den Raum, warum ich das Tool nicht veröffentliche:

Es gibt maximal zwei Tools in diesem Projekt: Einen Crawler, den behalte ich für meine Zwecke da ich nicht will dass das Board "kaputtgescraped" wird....
Und eine Analysetool. Das Analysetool soll definitiv veröffentlicht werden - dies würde aber keinen Datensätze enthalten, sondern soll ausschließlich zur generellen Datenanalyse dienen - auch mit anderen Datensätzen die aber ähnlich aufgebaut sein könnten (das ganze ist Zukunftsmusik, ich habe nur leider etwas wenig Zeit dafür aktuell und auch nicht alle nötigen Kenntnisse um muß mir viel anlesen).

Es war auch in erster Instanz nicht angedacht das überhaupt ein Datensatz den Raum verlassen sollte. Nur da hier danach gefragt worden ist, im Rahmen das alle "User" das hier einsehen können um selbst Rückschlüsse zu ziehen mit oder ohne dem (geplanten) Analysetool was an Informationen (theoretisch) offen liegt.
 
Zuletzt bearbeitet:

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.560
  • Thread Starter Thread Starter
  • #40
Zuletzt bearbeitet:
Oben