#python-3.x #pandas
#python-3.x #pandas
Вопрос:
У меня есть два фрейма данных, таких как :
Таб1
COL1 COL2 COL3
Sp1 False A
Sp2 False B
Sp3 True X
Sp4 True X
Sp5 False A
Sp6 False C
Tab2
COL1 COL2_bis COL3_bis
Sp1 True X
Sp4 True F
Sp6 True X
И я хотел бы исправить Tab1 COL2
и COL3
столбцы по сравнению с Tab2 COL2_bis
и COL3_bis
столбцами для соответствующих COL1
значений между двумя вкладками.
Затем я должен получить:
Таб1
COL1 COL2 COL3
Sp1 True X
Sp2 False B
Sp3 True X
Sp4 True F
Sp5 False A
Sp6 True X
Пожалуйста, у кого — нибудь есть идея?
Вот таблица в формате dict, если это cna поможет:
таб1:
{'COL1': {0: 'Sp1', 1: 'Sp2', 2: 'Sp3', 3: 'Sp4', 4: 'Sp5', 5: 'Sp6'}, 'COL2': {0: False, 1: False, 2: True, 3: True, 4: False, 5: False}, 'COL3 ': {0: 'A', 1: 'B ', 2: 'X ', 3: 'X ', 4: 'A ', 5: 'C '}}
tab2:
{'COL1': {0: 'Sp1', 1: 'Sp4', 2: 'Sp6'}, 'COL2_bis': {0: True, 1: True, 2: True}, 'COL3_bis ': {0: 'X', 1: 'F', 2: 'X'}}
Ответ №1:
Используйте DataFrame.update
by COL1
с набором индексов и удалением _bis
подстрок из имен столбцов:
df1 = df1.set_index('COL1')
df2 = df2.set_index('COL1').rename(columns=lambda x: x.replace('_bis', ''))
df1.update(df2)
print (df1)
COL2 COL3
COL1
Sp1 True X
Sp2 False B
Sp3 True X
Sp4 True F
Sp5 False A
Sp6 True X
df = df1.reset_index()
Ответ №2:
Переименуйте столбцы df2
, объедините два фрейма данных и удалите дубликаты на основе COL1
:
df2.columns = df2.columns.str.replace('_bis', '')
out = pd.concat([df1, df2]).drop_duplicates('COL1', keep='last')
.sort_values('COL1').reset_index(drop=True)
print(out)
# Output:
COL1 COL2 COL3
0 Sp1 True X
1 Sp2 False B
2 Sp3 True X
3 Sp4 True F
4 Sp5 False A
5 Sp6 True X