HoneyBadger
Aktiver NGBler
- Registriert
- 7 Sep. 2015
- Beiträge
- 1.956
Moin zusammen,
lese aus einer CSV Datensätze ein, die ich dann aufbereite und in eine Excel ausgebe. Soweit so gut.
Hierbei habe ich konkret zwei Spalten, die vergleichebare Datensätze enthalten, jedoch ab und zu verdeht sind.
Nun habe ich mir überlegt, die Daten einfach per Hashwert zu vergleichen. Hier erhalte ich jedoch abweichende Ergebnisse, was mir nicht ganz klar ist.
[src=python]df_cleaned["HashNormalize1"] = pd.util.hash_pandas_object(df_cleaned[["ColA", "ColB"]])
df_cleaned["HashNormalize2"] = pd.util.hash_pandas_object(df_cleaned[["ColB", "ColA"]])
df_cleaned["HashNormSum"] = df_cleaned["HashNormalize1"] + df_cleaned["HashNormalize2"]
df_cleaned["HashNormSum"] = df_cleaned["HashNormSum"].astype("int")
[/src]
Hat jemand eine Idee?
Grüße
lese aus einer CSV Datensätze ein, die ich dann aufbereite und in eine Excel ausgebe. Soweit so gut.
Hierbei habe ich konkret zwei Spalten, die vergleichebare Datensätze enthalten, jedoch ab und zu verdeht sind.
Nun habe ich mir überlegt, die Daten einfach per Hashwert zu vergleichen. Hier erhalte ich jedoch abweichende Ergebnisse, was mir nicht ganz klar ist.
No | Col 1 | Col 2 | Sum Col 1 + Col2 | Hash1 | Hash2 | HashSum | |||
1 | a | b | ab |
|
|
| |||
2 | NaN | NaN | NaN | ||||||
3 | b | a | ab |
|
|
| |||
4 | b | a | ab |
|
|
|
[src=python]df_cleaned["HashNormalize1"] = pd.util.hash_pandas_object(df_cleaned[["ColA", "ColB"]])
df_cleaned["HashNormalize2"] = pd.util.hash_pandas_object(df_cleaned[["ColB", "ColA"]])
df_cleaned["HashNormSum"] = df_cleaned["HashNormalize1"] + df_cleaned["HashNormalize2"]
df_cleaned["HashNormSum"] = df_cleaned["HashNormSum"].astype("int")
[/src]
Hat jemand eine Idee?
Grüße