Pandas Hashergebnisse unklar

HoneyBadger · 10 Jan. 2021

Moin zusammen,

lese aus einer CSV Datensätze ein, die ich dann aufbereite und in eine Excel ausgebe. Soweit so gut.
Hierbei habe ich konkret zwei Spalten, die vergleichebare Datensätze enthalten, jedoch ab und zu verdeht sind.

Nun habe ich mir überlegt, die Daten einfach per Hashwert zu vergleichen. Hier erhalte ich jedoch abweichende Ergebnisse, was mir nicht ganz klar ist.

No

Col 1

Col 2

Sum Col 1 + Col2

Hash1

Hash2

HashSum

1

a

b

ab

7,27363E+18

1,73561E+19

-1943126210

2

NaN

3

b

a

ab

1,63369E+19

1,08144E+19

-175753704

4

b

a

ab

5,5081E+18

1,64238E+18

-1738826704

[src=python]df_cleaned["HashNormalize1"] = pd.util.hash_pandas_object(df_cleaned[["ColA", "ColB"]])
df_cleaned["HashNormalize2"] = pd.util.hash_pandas_object(df_cleaned[["ColB", "ColA"]])
df_cleaned["HashNormSum"] = df_cleaned["HashNormalize1"] + df_cleaned["HashNormalize2"]
df_cleaned["HashNormSum"] = df_cleaned["HashNormSum"].astype("int")
[/src]

Hat jemand eine Idee?

Grüße

HoneyBadger · 12 Jan. 2021

Hab's nun verstanden. Sollte jemand mal hierauf googeln, dies war das Problem:

Führt man den Code aus:

[src=python]import pandas as pd

df_test = pd.DataFrame({
'A': ["1", "1", "1", "0"],
'B': ["0", "0", "0", "1"],
})

df_test["HashNormalize1"] = pd.util.hash_pandas_object(df_test[["A", "B"]])
df_test["HashNormalize2"] = pd.util.hash_pandas_object(df_test[["A", "B"]])
df_test["HashNormSum"] = df_test["HashNormalize1"] + df_test["HashNormalize2"]

df_test[/src]

Erhält man:

	A	B	HashNormalize1	HashNormalize2	HashNormSum
0	1	0	11066859559894451155	11066859559894451155	3686975046079350694
1	1	0	10128852264039700196	10128852264039700196	1810960454369848776
2	1	0	4666896424757761893	4666896424757761893	9333792849515523786
3	0	1	8579837400036744307	8579837400036744307	17159674800073488614

Die Methode inkludiert den Index, um den Hash zu generieren. Einfach den Parameter index = False setzen, dann passt es.

[src=python]import pandas as pd

df_test = pd.DataFrame({
'A': ["1", "1", "1", "0"],
'B': ["0", "0", "0", "1"],
})

df_test["HashNormalize1"] = pd.util.hash_pandas_object(df_test[["A", "B"]], index = False)
df_test["HashNormalize2"] = pd.util.hash_pandas_object(df_test[["A", "B"]], index = False)
df_test["HashNormSum"] = df_test["HashNormalize1"] + df_test["HashNormalize2"]

df_test[/src]

	A	B	HashNormalize1	HashNormalize2	HashNormSum
0	1	0	14888653698164444483	14888653698164444483	11330563322619337350
1	1	0	14888653698164444483	14888653698164444483	11330563322619337350
2	1	0	14888653698164444483	14888653698164444483	11330563322619337350
3	0	1	6480458753460356307	6480458753460356307	12960917506920712614

Pandas Hashergebnisse unklar

HoneyBadger

Aktiver NGBler

HoneyBadger

Aktiver NGBler