#python #pandas #dataframe
Вопрос:
Я пытаюсь взять несколько файлов CSV и Excel и объединить их все вместе в один нормализованный файл.
import pandas as pd headers = pd.read_excel('bankFilesHolding_headers.xlsx') df_headers = pd.DataFrame(headers) df_headers = df_headers.reset_index(drop = True) citiUs = pd.read_csv("bankFilescitiUS-holdings.csv") citiUs_df = pd.DataFrame(citiUs) citiUs_df["Bank Of Origin"] = "Citi US" citiUs_mapping = { ... } citiUs_df = citiUs_df.rename(columns = citiUs_mapping) citiUs_df = citiUs_df.reset_index(drop = True) GMS = pd.read_excel('bankFilesGoldMan.xlsx', skiprows=7) GMS_df = pd.DataFrame(GMS) GMS_df["Bank Of Origin"] = "Goldman Sachs US" GMS_mapping = { ... } GMS_df = GMS_df.rename(columns = GMS_mapping) GMS_df = GMS_df.reset_index(drop = True) #df_normalized = pd.concat([df_headers, citiUs_df]) df_normalized = pd.concat([df_headers,GMS_df]) df_normalized.to_csv("normal.csv", index=False)
Но я, похоже, не могу добавить ни одного файла.
Когда я пытаюсь, я получаю этот вывод:
raise InvalidIndexError( pandas.errors.InvalidIndexError: Reindexing only valid with uniquely valued Index objects
Я пытался:
GMS_df.reset_index(), GMS_df.reset_index(drop = True) GMS_df.loc[~GMS_df.index.duplicated(keep='first')].
Но я всегда получаю один и тот же результат.
citius_df работает, но когда я пытаюсь добавить GMS, он показывает ошибку.
Что я делаю не так?