• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

Ideenfindung Datenkompression

theSplit

1998
Veteran Barkeeper

Registriert
3 Aug. 2014
Beiträge
28.561
  • Thread Starter Thread Starter
  • #81
Wicked --- XML / Wikipedia XML Dump Parser

Es geht noch weiter, aber die Testcoverage ist noch nicht zufriedenstellend:
> 70 % sind gedeckt und werden einwandfrei gefiltert., was übrig bleibt, wird in "datachecker.py" gefiltert.



Der "Orphand report" sieht dann so aus:

[src=text]Unknown orphand found in line 310: ''''
Unknown orphand found in line 312: '' ''
Unknown orphand found in line 314: ''''
Unknown orphand found in line 316: '
Unknown orphand found in line 319: ''''''
Unknown orphand found in line 321: '
Unknown orphand found in line 323: '
Unknown orphand found in line 325: '
Unknown orphand found in line 327: ''''
Unknown orphand found in line 329: '
Unknown orphand found in line 331: ''''
Unknown orphand found in line 333: ''''
Unknown orphand found in line 336: ''
Unknown orphand found in line 339: '
Orphand strings in line 347: ''"''
Unknown orphand found in line 682: ''
Orphand strings in line 763: 's
Orphand strings in line 773: Asperger described his patients as
Orphand strings in line 874: author= |publisher=Rockville, MD: National Institute of Child Health and Human Development |work=Rett syndrome |accessdate=July 30 |
Orphand strings in line 875: author=Frombonne E. |journal=Autism |volume=6 |pages=149-157
Orphand strings in line 876: author=Volkmar RM and Rutter M. |journal=Journal of the American Academy of Child and Adolescent Psychiatry |volume=34 |
Orphand strings in line 877: surname=Ewald |title=Plague Time |org=Popular Science |
Orphand strings in line 878: title=PANDAS (Paediatric Autoimmune Neuropsychiatric Disorders Associated with Streptococci) and PITAND (Paediatric Infection-triggered Autoimmune Neuropsychiatric Disorders) |PITAND Syndromes |accessdate=July 30 |
Orphand strings in line 879: title=Closer to Truth: PBS, with Paul Ewald |url=http://www.pbs.org/kcet/closertotruth/explore/show_05.html |accessyear=2005
Orphand strings in line 880: title=M.I.N.D. Institute Study Confirms Autism Increase |url=http://www.ucdmc.ucdavis.edu/news/MINDepi_study.html |accessyear=2005
Orphand strings in line 881: surname=Stensontitle=As autism cases soar, a search for clues|
Orphand strings in line 882: surname=Goodetitle=Autism Statistics: More and More Autism Cases|
Orphand strings in line 883: author=Wing L, Potter D. |journal=Mental Retardation and Developmental Disabilities Research Reviews |issue=3 |pages=151
Orphand strings in line 884: author=Croen LA, Grether JK, Hoogstrate J, Selvin S. |journal=Journal of Autism and Developmental Disorders|issue=3 |pages=207-15
Orphand strings in line 889: title=NIH Autism Overview 2005 |accessdate=February 5 |
Orphand strings in line 890: title=BehaveNet autism description |accessdate=July 30 |
Orphand strings in line 891: title=BehaveNet aspergers description |accessdate=July 30 |
Orphand strings in line 892: surname=Silberman |title=The Geek Syndrome |org=Wired |
Orphand strings in line 893: title=autistics.org: The REAL Voice of Autism (See above) |accessdate=December 11 |
Orphand strings in line 894: title=Guardianarticle |accessdate=July 30 |
Orphand strings in line 895: title=NIH Rett description |accessdate=July 30 |
Orphand strings in line 896: title=Bright Tots Rett description |accessdate=July 30 |
Orphand strings in line 897: title=Yale CDD description |accessdate=July 30 |
Orphand strings in line 898: title=NIH CDD description |accessdate=July 30 |
Orphand strings in line 899: title=PDD-NOS at Yale |accessdate=August 22 |
Unknown orphand found in line 1144: ''
Orphand strings in line 2172: BlackletterA
Orphand strings in line 2173: UncialA
Orphand strings in line 2213: '''"
Unknown orphand found in line 2236: ''
Unknown orphand found in line 2492: [[
Unknown orphand found in line 2494: ''
Orphand strings in line 2496: ' State bird '''
Orphand strings in line 2498: ' State flower '''
Orphand strings in line 2500: ' State song '''
Orphand strings in line 2502: ' State tree '''
Orphand strings in line 2504: ' State spirit '''
Orphand strings in line 2506: ' State reptile '''
Orphand strings in line 2617: year1=2000 |
Orphand strings in line 2618: year1=71.1% |
Orphand strings in line 2619: year1=26.0% |
Orphand strings in line 2620: year1=0.7% |
Orphand strings in line 2621: year1=0.5% |
Orphand strings in line 2622: race=Other race |year2=0.1%
Orphand strings in line 2623: year1=1.0%
Orphand strings in line 2624: year1White=70.3% |year1Hispanic=1.7% |
Unknown orphand found in line 2838: ''
Unknown orphand found in line 2840: '''''' '
Unknown orphand found in line 2855: ''''
Unknown orphand found in line 2875: ''
Orphand strings in line 2934: Bibliography
Orphand strings in line 2961: HMNZS ''
Unknown orphand found in line 2982: '''
Unknown orphand found in line 3060: ''
Orphand strings in line 3061: name=Abraham Lincoln
Unknown orphand found in line 3130: 1848 ''''
Orphand strings in line 3236: Mede'sa
Unknown orphand found in line 3265: '' !
Orphand strings in line 3302: align=1864–1865
Unknown orphand found in line 3348: ''
Orphand strings in line 3358: SS ''
Unknown orphand found in line 3386: ''
Unknown orphand found in line 3387: ''
Unknown orphand found in line 3388: ''
Unknown orphand found in line 3389: ''
Unknown orphand found in line 3390: ''
Unknown orphand found in line 3391: ''
Unknown orphand found in line 3392: ''
Unknown orphand found in line 3395: ''
Unknown orphand found in line 3396: ''
Unknown orphand found in line 3397: ''
Unknown orphand found in line 3398: ''
Unknown orphand found in line 3418: ''
Unknown orphand found in line 3421: ''
Unknown orphand found in line 3422: ''
Unknown orphand found in line 3423: ''
Unknown orphand found in line 3424: ''
Unknown orphand found in line 3435: ''
Orphand strings in line 3477: id=Abraham+Lincoln |
Unknown orphand found in line 3610: ' '
Unknown orphand found in line 3649: ''
Unknown orphand found in line 3663: ''
Unknown orphand found in line 3664: ''
Unknown orphand found in line 3665: ''
Unknown orphand found in line 3666: ''
Unknown orphand found in line 3667: ''
Unknown orphand found in line 3668: ''
Unknown orphand found in line 3715: '
Unknown orphand found in line 3716: '
Unknown orphand found in line 3717: '
Unknown orphand found in line 3718: '
Unknown orphand found in line 3719: '
Unknown orphand found in line 3739: '']]
Orphand strings in line 3924: id=Aristotle |
Unknown orphand found in line 4026: ''''''
Orphand strings in line 4291: Best Assistant Direcrto
Orphand strings in line 4298: Best Original Sryto
Unknown orphand found in line 4453: '
Unknown orphand found in line 4495: '
Orphand strings in line 4640: '''>
Orphand strings in line 4648: ''them.
Orphand strings in line 4661: ''them.
Unknown orphand found in line 4706: ' '
Orphand strings in line 4743: Lee acceptingBest Foreign Film award for' ''the
Orphand strings in line 4889: ''itself.
Orphand strings in line 5271: id=Ayn+Rand |
Unknown orphand found in line 5429: ''
Unknown orphand found in line 5430: ''
Unknown orphand found in line 5431: ''
Unknown orphand found in line 5432: ''
Unknown orphand found in line 5433: ''
Unknown orphand found in line 5434: ''
Unknown orphand found in line 5435: ''
Unknown orphand found in line 5436: ''
Unknown orphand found in line 5437: ''
Unknown orphand found in line 5438: ''
Unknown orphand found in line 5439: ''
Unknown orphand found in line 5440: ''
Unknown orphand found in line 5441: ''
Unknown orphand found in line 5442: ''
Unknown orphand found in line 5443: ''
Unknown orphand found in line 5444: ''
Unknown orphand found in line 5445: ''
Unknown orphand found in line 5446: ''
Unknown orphand found in line 5447: ''
Unknown orphand found in line 5448: ''
Unknown orphand found in line 5449: ''
Unknown orphand found in line 5450: ''
Unknown orphand found in line 5451: ''
Unknown orphand found in line 5452: ''
Unknown orphand found in line 5453: ''
Unknown orphand found in line 5454: ''
Unknown orphand found in line 5455: ''
Unknown orphand found in line 5456: ''
Unknown orphand found in line 5457: ''[/src]

Das kann dann alles mögliche sein was hier fehlt - entweder hat ein Element Wort/Wikitag/Entity kein Formatbeginn oder Ende signalisiert, erkannt man an den Apostrophen. Oder ein Tag wurde falsch bewertet oder oder oder.

Mittlerweile lasse ich mir das in mehrere Dateien untergliedern:
Wörter, WikiTags, Enities, XML Tags.

Alle Daten enthalten Pre und Postspacing Informationen, eigenes Format, vererbtes Format bzw. das Hauptformat und vieles weitere mehr....

Hier noch zwei Screenshot der Hauptauswertung mit Debug Output:





Und hier die Kernattribute die bisher ermittelt werden:
[src=c]
#pragma pack()
typedef struct word {
unsigned int lineNum;
unsigned int position;
char dataFormatType;
char ownFormatType;
bool formatStart;
bool formatEnd;
unsigned char preSpacesCount;
unsigned char spacesCount;
char *data;
} word;

#pragma pack()
typedef struct entity {
unsigned short translationIndex;
unsigned int lineNum;
unsigned int position;
unsigned char preSpacesCount;
unsigned char spacesCount;
char dataFormatType;
char ownFormatType;
bool formatStart;
bool formatEnd;
char data[8];
} entity;

#pragma pack()
typedef struct wikiTag {
unsigned char preSpacesCount;
unsigned char spacesCount;
unsigned int lineNum;
unsigned int position;
unsigned int wordCount;
unsigned int wTagCount;
unsigned int entityCount;
unsigned int wikiTagFileIndex;
unsigned char tagType;
char dataFormatType;
char ownFormatType;
bool formatStart;
bool formatEnd;
char *target;
struct word *pipedWords;
struct wikiTag *pipedTags;
struct entity *pipedEntities;
} wikiTag;[/src]


Folgend die Results des 634 MB Wikipedia Dumps:
"enwiki-20160720-pages-meta-current1.xml-p000000010p000030303"



Datachecker Result:


PS: Beim zweiten Durchlauf hat das Python Skript nur 14 Minuten gebraucht, keine Ahnung was dabei schieb gelaufen ist, aber ich hatte auch zu dem Zeitpunkt 30 GB für die Python Anwendung... plus Browser, OS und und, was ordentlich Auslagerung/Swap genutzt hatte.. und das hat meinen Rechner in die Knie gezwungen ;)
Danach war es etwas weniger RAM Konsum...
 
Zuletzt bearbeitet:

Roin

Freier Denker

Registriert
22 Juli 2013
Beiträge
581
Cool, dass du da weiterhin noch dran arbeitest. Wenn ich in den nächsten Wochen wieder etwas Zeit finde, wollte ich mich auch nochmal dran begeben. Vielleicht kriege ich ja auch noch irgendwas hin.
 
Oben