Как объединить две разные строки в ПАНД?

#python #pandas #dataframe

Вопрос:

Я хочу объединить два кадра данных. Левый фрейм данных имеет два идентификатора, id1 и id2. Правый фрейм данных содержит строковую версию этих идентификаторов. Что я хочу сделать, так это получить оба идентификатора и строковую версию обоих идентификаторов в одной строке. Пример:

 left:     right:
id1 id2   id string
0   1     0  "a"
3   4     1  "b"
10  0     3  "c"
1   4     4  "d"
          10 "e"
 

Результат слияния:

 id1 id2 string1 string2
0   1   "a"     "b"
3   4   "c"     "d"
10  0   "e"     "a"
1   4   "b"     "d"
 

Как бы я это сделал?

Ответ №1:

Создание картографа из right фрейма данных, вероятно, лучше всего здесь, а затем использовать Series.map для каждого столбца, так как он очень легко масштабируется:

 mapper = right.set_index('id')['string']
merged = left.copy()
for i, col in enumerate(merged.columns, 1):
    merged[f'{mapper.name}{i}'] = merged[col].map(mapper)
 

Альтернативно с цепными merge вызовами:

 merged = (
    left.merge(right.rename(columns={'id': 'id1'}), on='id1', how='left')
        .merge(right.rename(columns={'id': 'id2'}), on='id2', how='left',
               suffixes=('1', '2'))
)
 

Оба производят merged :

    id1  id2 string1 string2
0    0    1       a       b
1    3    4       c       d
2   10    0       e       a
3    1    4       b       d
 

Фреймы данных:

 import pandas as pd

left = pd.DataFrame({
    'id1': {0: 0, 1: 3, 2: 10, 3: 1},
    'id2': {0: 1, 1: 4, 2: 0, 3: 4}
})

right = pd.DataFrame({
    'id': {0: 0, 1: 1, 2: 3, 3: 4, 4: 10},
    'string': {0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e'}
})