- Registriert
- 3 Aug. 2014
- Beiträge
- 28.573
- Thread Starter Thread Starter
- #21
@Shodan: Gut, also bevor ich anfange etwas zu veröffentlichen, werde ich einen Beitrag schreiben, der eine Möglichkeit gibt sich anonymisieren zu lassen, sollte es zu einer Veröffentlichung in einer Form kommen - also ein mögliches "Opt-out" Verfahren, wie du es so schön nennst.
Ich denke Burnerr hatte aber einen wichtigen Punkt gleich vorweg gebracht, die Daten sind für einen Menschen auch einsehbar. Das was der Scraper aktuell macht, kann auch ein Mensch. Profile werden nicht verarbeitet, da dies "nicht öffentlich" zugängliche Bereiche sind. Es musst also niemand befürchten das Profildaten mit verarbeitet werden und diese "Publik" gemacht werden...
Was man aber schon noch machen könnte... herausfinden ob sich mehr Männliche oder Weibliche oder "Korrupt" User in einem Thema aufhalten... wenn man dann doch das Profil mit aufnehmen will, zumindest um die Zahlen (ohne Benutzernamen) zu ermitteln oder das Alter, falls angegeben.
Interessant könnte auch die Wortwahl sein bei einem Thema, aber wer sich 2-X Seiten Thema ansieht, kann dass auch schon in etwa abschätzen.
Die Daten sind also in so fern frei zugänglich, der einzige Unterschied - es wird maschinell gemacht und ist somit ein wenig "Hartnäckiger","logischer" und "konsequenter" als das es ein Mensch vielleicht über 10 Seiten sein kann der den Inhalt "verstehen" will.
Ich versuche natürlich nicht jemanden damit explizit bloßzustellen... das wäre eventuell ein Beigeschmack- aber das obligt der Wortwahl und dem Tonfall innerhalb des Beitrags bzw. dem innerhalb des Themas. Und im Grunde kann das ein Mensch noch ganz anderes interpretieren bzw. aus dem Kontext erkennen, was ich durch meine Wortstatistik "nicht" leisten kann. Jemand kann ja auch für oder gegen etwas argumentieren und dabei die Argumente/das Vokabular der Gegenseite verwenden bzw. aufgreiften- und das würde logischerweise genau so gezählt werden.
---
Ansonsten, ich stehe damit noch ganz am Anfang... und muss mich dabei noch in vieles einlesen.... die genannten Ideen "Diagramme, Social Map, Interaktions View" oder wie man es nennen mag sind nur einige Ideen die man visualisieren könnte, aber die Themen sind doch etwas umfangreicher als angedacht. Bzw. ist das nicht so trival.
Und dazu kommt, ich lerne C++ noch... heißt ich bin mir aktuell noch nicht einmal sicher, wie ich den Parser für die Rohdaten umsetzen sollte. Wird also ein steiniger Weg bis der erste richtige Code produziert wird....
Ich denke Burnerr hatte aber einen wichtigen Punkt gleich vorweg gebracht, die Daten sind für einen Menschen auch einsehbar. Das was der Scraper aktuell macht, kann auch ein Mensch. Profile werden nicht verarbeitet, da dies "nicht öffentlich" zugängliche Bereiche sind. Es musst also niemand befürchten das Profildaten mit verarbeitet werden und diese "Publik" gemacht werden...
Was man aber schon noch machen könnte... herausfinden ob sich mehr Männliche oder Weibliche oder "Korrupt" User in einem Thema aufhalten... wenn man dann doch das Profil mit aufnehmen will, zumindest um die Zahlen (ohne Benutzernamen) zu ermitteln oder das Alter, falls angegeben.
Interessant könnte auch die Wortwahl sein bei einem Thema, aber wer sich 2-X Seiten Thema ansieht, kann dass auch schon in etwa abschätzen.
Die Daten sind also in so fern frei zugänglich, der einzige Unterschied - es wird maschinell gemacht und ist somit ein wenig "Hartnäckiger","logischer" und "konsequenter" als das es ein Mensch vielleicht über 10 Seiten sein kann der den Inhalt "verstehen" will.
Ich versuche natürlich nicht jemanden damit explizit bloßzustellen... das wäre eventuell ein Beigeschmack- aber das obligt der Wortwahl und dem Tonfall innerhalb des Beitrags bzw. dem innerhalb des Themas. Und im Grunde kann das ein Mensch noch ganz anderes interpretieren bzw. aus dem Kontext erkennen, was ich durch meine Wortstatistik "nicht" leisten kann. Jemand kann ja auch für oder gegen etwas argumentieren und dabei die Argumente/das Vokabular der Gegenseite verwenden bzw. aufgreiften- und das würde logischerweise genau so gezählt werden.
---
Ansonsten, ich stehe damit noch ganz am Anfang... und muss mich dabei noch in vieles einlesen.... die genannten Ideen "Diagramme, Social Map, Interaktions View" oder wie man es nennen mag sind nur einige Ideen die man visualisieren könnte, aber die Themen sind doch etwas umfangreicher als angedacht. Bzw. ist das nicht so trival.
Und dazu kommt, ich lerne C++ noch... heißt ich bin mir aktuell noch nicht einmal sicher, wie ich den Parser für die Rohdaten umsetzen sollte. Wird also ein steiniger Weg bis der erste richtige Code produziert wird....