Тот же хэш панд для тех же значений в Jupyther, но не при экспорте в Bigquery

# #python #pandas #dataframe #hash #google-bigquery

Вопрос:

Я хэшировал личные номера в двух разных кадрах данных и оставил эти два кадра данных в хэшированных личных номерах. В Jupyther я получаю тот же результат в хэшированном соединении, что и в не хэшированном соединении, но когда я экспортирую две хэшированные таблицы в формате csv и импортирую их в BigQuery, я не могу присоединиться к ним там, потому что у одного и того же человека больше нет одного и того же хэшированного личного номера в двух таблицах. У кого-нибудь есть идеи о том, что за этим стоит?

Вот мой хэш, который я применил к копии моего основного фрейма данных:

 checkout_copy['hashed_ssn'] = checkout_copy['ssn'].apply(hash)
 

И вот объединение, которое я сделал в Jupyther (это не работает в BigQuery). Столбцы в приведенном ниже соединении используются идентификаторы и даты создания из обеих таблиц и одного столбца для хэшированных личных номеров.

 join_hashed_ssn = checkout_to_bq.merge(appwebb_to_bw, how = 'left', on = 'hashed_ssn')