• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

Pandas Hashergebnisse unklar

HoneyBadger

Aktiver NGBler

Registriert
7 Sep. 2015
Beiträge
1.935
Moin zusammen,

lese aus einer CSV Datensätze ein, die ich dann aufbereite und in eine Excel ausgebe. Soweit so gut.
Hierbei habe ich konkret zwei Spalten, die vergleichebare Datensätze enthalten, jedoch ab und zu verdeht sind.

Nun habe ich mir überlegt, die Daten einfach per Hashwert zu vergleichen. Hier erhalte ich jedoch abweichende Ergebnisse, was mir nicht ganz klar ist.

NoCol 1Col 2Sum Col 1 + Col2Hash1Hash2HashSum
1abab
7,27363E+18
1,73561E+19
-1943126210
2NaNNaNNaN
3baab
1,63369E+19
1,08144E+19
-175753704
4baab
5,5081E+18
1,64238E+18
-1738826704


[src=python]df_cleaned["HashNormalize1"] = pd.util.hash_pandas_object(df_cleaned[["ColA", "ColB"]])
df_cleaned["HashNormalize2"] = pd.util.hash_pandas_object(df_cleaned[["ColB", "ColA"]])
df_cleaned["HashNormSum"] = df_cleaned["HashNormalize1"] + df_cleaned["HashNormalize2"]
df_cleaned["HashNormSum"] = df_cleaned["HashNormSum"].astype("int")
[/src]

Hat jemand eine Idee?

Grüße
 

HoneyBadger

Aktiver NGBler

Registriert
7 Sep. 2015
Beiträge
1.935
  • Thread Starter Thread Starter
  • #2
Hab's nun verstanden. Sollte jemand mal hierauf googeln, dies war das Problem:

Führt man den Code aus:

[src=python]import pandas as pd

df_test = pd.DataFrame({
'A': ["1", "1", "1", "0"],
'B': ["0", "0", "0", "1"],
})

df_test["HashNormalize1"] = pd.util.hash_pandas_object(df_test[["A", "B"]])
df_test["HashNormalize2"] = pd.util.hash_pandas_object(df_test[["A", "B"]])
df_test["HashNormSum"] = df_test["HashNormalize1"] + df_test["HashNormalize2"]

df_test[/src]

Erhält man:

ABHashNormalize1HashNormalize2HashNormSum
01011066859559894451155110668595598944511553686975046079350694
11010128852264039700196101288522640397001961810960454369848776
210466689642475776189346668964247577618939333792849515523786
3018579837400036744307857983740003674430717159674800073488614

Die Methode inkludiert den Index, um den Hash zu generieren. Einfach den Parameter index = False setzen, dann passt es.

[src=python]import pandas as pd

df_test = pd.DataFrame({
'A': ["1", "1", "1", "0"],
'B': ["0", "0", "0", "1"],
})

df_test["HashNormalize1"] = pd.util.hash_pandas_object(df_test[["A", "B"]], index = False)
df_test["HashNormalize2"] = pd.util.hash_pandas_object(df_test[["A", "B"]], index = False)
df_test["HashNormSum"] = df_test["HashNormalize1"] + df_test["HashNormalize2"]

df_test[/src]

ABHashNormalize1HashNormalize2HashNormSum
010148886536981644444831488865369816444448311330563322619337350
110148886536981644444831488865369816444448311330563322619337350
210148886536981644444831488865369816444448311330563322619337350
3016480458753460356307648045875346035630712960917506920712614
 
Oben