• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

IT-Talents.de Code Competitions

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #162
Muss ehrlich sagen, für mich ist die Aufgabe zu kompliziert.

Ich habe versucht einige Onlineartikel - ähnlich wie das SMMRY bewerkstelligt - herunter zu brechen auf gewisse Schlagwörter die wichtig sein könnten. Also etwas Textanalyse zu betreiben. Und intelligent nach Schlüsseln zu suchen die für eine Ausgabe wichtig sein könnten, auch mit einer Art Word-Scoring - aber bin zu keinem guten Ergebnis gelangt das irgendwie befriedigend wäre. Ist vielleicht etwas anderes wenn man mit Wortlisten arbeitet.

Hab dann auch nach anderen Lösungen gesucht, speziell intelligenten Chatbots um mal zu schauen was es in den Bereichen so gibt... - aber nicht wirklich durch die Quelltexte gewühlt.

Im übrigen ist maschinelles Lernen wohl ein wenig einfacher, wenn man es hierbei überhaupt ansetzen kann, wenn man von uniformen Daten ausgeht - aber Sprache ist ja nicht uniform sondern ziemlich "lebendig".
Erinnerte mich stark daran das ich mal für versucht hatte einen Stemmer zu basteln, der mit Deutsch umgehen kann, aber es gab da wohl einiges was "Regeln" bricht - selbst wenn es normale deutsche Wörter sind bzw. eingedeutscht (was noch viel schlimmer ist :p ).

Also an dieser Stelle, Hut ab wer an dem Thema teilnimmt ;)
 

LadyRavenous

in Schwarz
Teammitglied

Registriert
26 Dez. 2016
Beiträge
16.079
Ort
hello world
Leider habe ich nicht genug Zeit, ansonsten würd ich bei der Aufgabe gern teilnehmen. Klingt alles andere als leicht, aber nachdem ich hier in der Arbeit eh noch n Chatbot haben möcht...
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #164
@LadyRavenous: In ein paar Stunden ist doch schon Wochenende, da kannst du dich doch mal ran setzen ;)

Okay, ist mit Sicherheit nicht an einem Wochenende programmiert, aber ich wäre auch daran interessiert wie man so etwas umsetzt bzw. umsetzen könnte, da ich mal so gar keine Ahnung habe :)
 

Roin

Freier Denker

Registriert
22 Juli 2013
Beiträge
581
Ich halte mich da auch raus - trifft so gar nicht mein Interessengebiet...
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #166
Code Competition für Juli 2017: Big data predictions

Die neue Code Competition für den Juli ist da, war wohl durch das Wochenende etwas verzögert.

In diesem Wettbewerb geht es um "Big data predictions".

Themenbeschreibung:
Big Data ist in aller Munde. Daten sind Wissen und Wissen ist Macht. Aber was ist dran an diesem Spruch und dem gehypten Begriff der "Big Data"?

Damit wollen wir uns in dieser Code Competition auseinandersetzen. Bei "Big Data" geht es um die Auswertung von großen Datenmengen. Die Auswertung besteht darin, die Datenmenge zunächst aufzubereiten, sodass sie von Software mit entsprechenden Algorithmen automatisch analysiert werden kann. Dann geht es um die Erkennung von Mustern und Zusammenhängen innerhalb der Daten und schließlich um die Herleitung von Erkenntnissen aus entdeckten Mustern und die Visualisierung dieser Erkenntnisse.

Folgende Schritte sind also wichtig:

- Aufbereiten
- Muster erkennen
- Erkenntnisse aus Mustern herleiten
- Erkenntnisse visualisieren

Bei dieser Challenge steht eine Datensatz In Form einer CSV zu Verfügung, aus dem mit unterschiedlichen Betrachtungsweisen heraus Rückschlüsse gezogen werden sollen.

Wir stellen Dir einen Datensatz eines Rennspiels zur Verfügung. In diesem Datensatz findest Du über 160.000 eingetragene Rennen.
Aus diesen (Meta)-Daten lassen sich bereits viele spannende Aussagen treffen (Wer fährt präferiert wann und gegen wen Rennen? Gewonnen oder Verloren?) und Vorhersagen ableiten.
Tipp: Filtere die Einträge je nachdem, mit welcher Fragestellung Du die Daten untersuchst.

Abgabetermin ist der: 31. Juli 2017 23:59 Uhr

Die Auswertung erfolgt im August und eine Siegerehrung erfolgt im September.

Und hier geht es zur Challenge-Seite mit weiteren Informationen, den Testdaten und Preisen:
IT-Talents "Big data predictions"

Allen die teilnehmen wollen, wie immer viel Spaß und natürlich auch Erfolg dabei!


Persönlicher Kommentar: Ich denke die Challenge wird etwas angenehmer als die vorherige, da man hier schon einen Datensatz bekommt und die Fragestellungen und Probleme nicht so direkt offen sind und damit der Einstieg in das Thema um einiges leichter sein sollte. :)
 

Roin

Freier Denker

Registriert
22 Juli 2013
Beiträge
581
@theSplit: Kannst den Eintrag ja direkt wieder pinnen.
Ich denke auch, die Challenge wird angenehmer. Ich weiß zwar nicht, wie es bei mir zeitlich passt - wegen Klausuren und sowas - aber ich denke, die geht schon wieder eher in Richtung der aller ersten Code-Competition (DNA Analyse).
Das gefällt mir viel besser.
 

werner

Suchtspielmacher (ehm.)

Registriert
20 Juli 2014
Beiträge
743
Ort
Mannheim
Da gehts doch wohl eher um Theorie/Algorithmen als um wirkliches Coding, oder?
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #169
@werner: Vermutlich hast du in dem Punkt recht mit deiner Frage: "Wie und welche Rückschlüsse kann man aus den Daten ziehen bzw. gewinnen" und kann man "aus den Daten irgendwelche Prognosen ableiten" - also die Theorie, sich Fragen zu stellen die relevant sein können und diese mit Algorithmen (Praxisteil) aus den, aufbereiteten, Datensätzen abzuleiten und diese neu gewonnen Erkenntnisse im Anschluss darzustellen. Optional sind Prognosen. Das Programm kann aber auch mehr Funktionen haben, sollte aber halt die Grundfunktionalitäten beinhalten. :)

In der Review wird unter anderem bewertet:
{REVIEW}

Worauf achten wir bei der Bewertung Deiner Abgabe?

- Funktionalität: Lässt sich das Programm bedienen? Tut die Anwendung oder die Funktion, was sie soll? Wie umfangreich sind die Funktionen?
- Code-Qualität: Ist der Code sinnvoll strukturiert und effizient?
- Code-Lesbarkeit / Dokumentation: Lässt sich der Quellcode nachvollziehen? Ist der Code kommentiert?
- Setup: Ist das System einfach einzurichten / aufzusetzen? (z.B. mittels guter Dokumentation, Docker, Vagrant, Skripte, o.ä.)
- README: Wird eine README mitgeliefert, die zeigt, wie das Programm aufgerufen werden kann?
- Welche Zusatzfeatures wurden eingebaut?

Im Grunde hast du also freie Hand, so lange du dich an der grundlegenden Aufgabenstellung hälst - und kannst selbst entscheiden wieviel Technik du auf das Problem wirfst, aber wie gesagt, der Code an sich wird auch bewertet (Qualität + Lesbarkeit + Dokumentation) und fließt mit ein.

Klärt das ein wenig deine Fragen?
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Big Data Predictions


Ich habe mir eben mal die Datei runtergeladen und einen Blick darauf geworfen. Nur mal ein paar erste Gedanken.

SPOILER ALARM
Aufbereitung:
1. Datenmodell Da für die Fremdschlüssel keine weiteren Informationen vorhanden sind, bedarf es wohlkeiner weiteren Tabellen
2. Die Spalte Wettervorhersage enthält in einem String die Einzelwahrscheinlichkeiten für 4 Wettersituationen. Wahrscheinlich reicht es hier 4 einzelne Spalten für die Wahrscheinlichkeiten zu ergänzen

Fragen:
1. Wer hat die meisten Siege?
2. Wer gewinnt das meiste Preisgeld?
3. Wer beherrscht welche Strecke am Besten?
4. Wer beherrscht welche Strecke am Besten in Abhängigkeit vom Wetter.
5. Wie oft trifft die Wettervorhersage?
6. Gründe für Rennausfälle. Wetter? Gegner zu gut?
7. Rückschlüsse von Verbrauch auf Leistung und Auswirkung auf Siege.

Was man mit den Daten Zeitpunkt der Rennplannung und Zeitpunkt de Ausführung machen kann, habe ich keine Idee. Da müßte man sich die Daten erst einmal anschauen

Man kann nach Auswertung sagen, wer unter welchen Bedingungen ein Rennen wahrscheinlich gewinnen wird.

Wenn man sich erst einmal Abfragen ausgedacht hat, wird es wohl in keiner Sprache schwer sein, diese auch durchzuführen.

Die größte technische Herausforderung stellt dann aus meiner Sicht dann etwas dar, was mit dem Thema nichts zu tun hat: Die Visualisierung.

Das Thema ist interessant, aber es ist keine Aufgabe, die man "lösen" kann.
Das ist mehr wie "male ein Bild" oder "schreibe einen Aussatz".
Als Projekt reizt mich so etwas nicht, aber es macht sicher Spaß ein wenig mit dem Datensatz zu spielen, wenn man Zeit dafür findet.
 

drfuture

Zeitreisender
Teammitglied

Registriert
14 Juli 2013
Beiträge
8.730
Ort
in der Zukunft
Nunja die Idee bei BigData sind ja meist Cluster-Bildung und Statistik / Stochastik - gibt ja ansich wohl auch recht gute Werkzeuge dafür (Klar ist ja nun hier nicht das Thema).
Das heißt ich denke die Aufgabe ist *vernünftig* ohne höhere Mathematik nicht lösbar... stelle mir das so vor wie in der genialen Präsentation "Spiegel Mining"
https://www.youtube.com/watch?v=-YpwsdRKt8Q
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Ich glaube nicht, daß da jemand an Mathematik gedacht hat.

Selbst Aufarbeitung der Daten klingt hochtrabend, wenn es wahrscheinlich nur darum geht, daß die Daten fehlerhaft sind.
Wenn der Spritverbrauch in Liter eine Kommazahl sein soll und da viele Tausend Datensätze stattdessen an der Stelle so etwas wie "04. Mai" oder "Feb 55" enthalten, muß man beim Parsen ein wenig mehr Aufwand betreiben.
 

Roin

Freier Denker

Registriert
22 Juli 2013
Beiträge
581
Wenn der Spritverbrauch in Liter eine Kommazahl sein soll und da viele Tausend Datensätze stattdessen an der Stelle so etwas wie "04. Mai" oder "Feb 55" enthalten, muß man beim Parsen ein wenig mehr Aufwand betreiben.
Dateiendung in .txt ändern und dann mit Excel öffnen. Schon hast du einen tollen Text Import Wizard. Oder du nutzt einfach ein anderes Programm...
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
@Roin:

Was erreiche ich damit? Mit Fehlerhaft meine ich ja nicht, daß ich sie nicht öffnen kann. (Habe Calc, nicht Excel benutzt)
Aber für eine Query in einem selbstgeschriebenen Programm muß ich halt erst einmal den numerischen Teil extrahieren.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #175
@KaPiTN: Die Frage die sich mir dabei stellt, ist der Wert dann überhaupt gültig wenn "04. Mai" oder "Feb 82" gegeben sind? Ich würde sagen was das angeht, darf das Datenfeld gar nicht weiter in die Berechnungen mit einbezogen werden, um mit dem Treibstoffverbrauch zu arbeiten.

Genauso alle ganzen Zahlen dürfen dann im Umkehrschluss so nicht mehr gewertet werden, davon ausgegangen das wir immer NUR Gleitkommazahlen erlauben bzw. als "realistisch" einschätzen.

Ich habe so einen Filter kurz implementiert, was die validen Angaben doch schon sehr stark reduziert. Round about auf ~117k Datensätze die nach dem Schema valide sind. Daher wäre die Angabe wohl realistischer als andere Angaben, jedenfalls treten diese am häufigsten auf.
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Ich war gestern Abend so auf das Technische fixiert, wie man elegant die Zahlenwerte da rausziehen kann (2 Zeilen regex), daß ich völlig übersehen habe, daß da nicht nur störende Buchstaben in den Feldern sind, sondern daß das Jahreszahlen oder dd."month" sind.

Du hast vollkommen recht. Das ist ist Müll und man müßte schauen, ob es überhaupt eine Strecke gibt, wo alle Werte valide sind.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #177
Du hast vollkommen recht. Das ist ist Müll und man müßte schauen, ob es überhaupt eine Strecke gibt, wo alle Werte valide sind.

Naja, rein vom Realismus her, ich hab mal aus Spaß gegoogelt wie viel, ich weiß nicht wie aktuell der Wert ist, ein Formel 1 Wagen auf 100 km verbraucht, zwischen 60-80 Liter.

Jetzt weiß man natürlich nicht wie lang die Strecken sind, aber nach Betrachtung der Rennen die "Finished" sind, sind die Differenzen für eine Strecke, beim überfliegen der Zahlen, doch sehr hoch, so das ich spontan sagen würde, die Zahlen sind "Müll", die anderen Gleitkommanzahlen sind da ja wesentlich konstanter, aber auch da gibt es Wertespannen zwischen 0 und < 150...

Ich weiß nicht ob es zur Aufgabe gehört, auch noch herauszufinden ob und wie realistisch die Werte sind. Nur gibt es irgendwo mindestens auch nen Dezimalwert mit 65000 für einen Strecke, was dann zwar mit "viel" herumfahren... noch irgendwo erklärbar wäre, aber wenn der andere Benzinverbrauch für die gleiche Strecke bei 300 oder 500 liegt oder 1200... ist das alles nicht so ganz realistisch, eigentlich sollten die Zahlen ja eine halbwegs konstante Größe haben, relativ zum Umfang der Strecke in Kilometer/Fahrzeit et cetera.
 

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #179
Da ist das Auto verbrannt wegen Crash > ganze Tank leer bei wenig Kilometern > hoher verbrauch :D

Brillante Logik Sherlock... :D

Edit:

Ich hab nochmal etwas in LibreOffice sortiert und gefiltert, also die Ganzzahlen sehen doch nicht so schlecht aus... Eher scheint es weniger Gleitkommazahlen zu geben... vermutlich hatte ich dann doch einen Fehler drin. :)

Ich bin wie folgt vorgegangen:
a) Sortieren


b) Filtern:

Edit2:
LibreOffice interpretiert irgendwie die meisten Floats als volle Integer per Default... - also vergesst was meinen Edit angeht, Programmfehler hinter Bildschirm (Formatierung Importsprache ändern!). :T
 
Zuletzt bearbeitet:

Roin

Freier Denker

Registriert
22 Juli 2013
Beiträge
581
Ich konnte nicht glauben, dass da wirklich diese Datensätze drinstehen und nicht einfach nur von Excel und Co falsch interpretiert wurden. Aber ihr habt Recht, die stehen da so drin.
Hat mich gerade echt sehr verwundert.
Im Zweifel wäre es nicht allzu schwer die Daten umzuformen, da man die Monate ja in eine entsprechende Ziffer umformen könnte und so die Datensätze validieren könnte.

Wenn ich Zeit finde, mache ich vielleicht mal was dazu - aber versprechen tue ich mal nichts ;-)
 
Oben