#python #pandas #dataframe #datetime #merge
#питон #панды
Вопрос:
Я пытаюсь, но не могу удалить nan
при объединении двух столбцов a DataFrame
.
Данные похожи на:
feedback_id _id
568a8c25cac4991645c287ac nan
568df45b177e30c6487d3603 nan
nan 568df434832b090048f34974
nan 568cd22e9e82dfc166d7dff1
568df3f0832b090048f34711 nan
nan 568e5a38b4a797c664143dda
Я хочу:
feedback_request_id
568a8c25cac4991645c287ac
568df45b177e30c6487d3603
568df434832b090048f34974
568cd22e9e82dfc166d7dff1
568df3f0832b090048f34711
568e5a38b4a797c664143dda
Вот мой код:
df3['feedback_request_id'] = ('' if df3['_id'].empty else df3['_id'].map(str)) ('' if df3['feedback_id'].empty else df3['feedback_id'].map(str))
Результат, который я получаю:
feedback_request_id
568a8c25cac4991645c287acnan
568df45b177e30c6487d3603nan
nan568df434832b090048f34974
nan568cd22e9e82dfc166d7dff1
568df3f0832b090048f34711nan
nan568e5a38b4a797c664143dda
Я тоже пробовал это делать:
df3['feedback_request_id'] = ('' if df3['_id']=='nan' else df3['_id'].map(str)) ('' if df3['feedback_id']=='nan' else df3['feedback_id'].map(str))
Но он выдает ошибку:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
Ответ №1:
Вы можете использовать combine_first
или fillna
:
print df['feedback_id'].combine_first(df['_id'])
0 568a8c25cac4991645c287ac
1 568df45b177e30c6487d3603
2 568df434832b090048f34974
3 568cd22e9e82dfc166d7dff1
4 568df3f0832b090048f34711
5 568e5a38b4a797c664143dda
Name: feedback_id, dtype: object
print df['feedback_id'].fillna(df['_id'])
0 568a8c25cac4991645c287ac
1 568df45b177e30c6487d3603
2 568df434832b090048f34974
3 568cd22e9e82dfc166d7dff1
4 568df3f0832b090048f34711
5 568e5a38b4a797c664143dda
Name: feedback_id, dtype: object
Комментарии:
1. Это позволит объединить только два столбца,
bfill
это лучший вариант
Ответ №2:
Если вам нужно решение, которое не требует df
двойной ссылки на какой-либо из его столбцов явно:
df.bfill(axis=1).iloc[:, 0]
С двумя столбцами это скопирует ненулевые значения из правого столбца в левый, затем выберите левый столбец.
Комментарии:
1. Заменит ли это значения nan в копируемом столбце?
2. Это отлично — он будет обрабатывать несколько столбцов: <br> <br> `ЛИНИЯ СКОБКИ ЛУЧА СТОЛБЦА` <br> ` C4 (3651, 3651, 1) NaN NaN NaN` <br> ` B58 NaN (4367, 5285, 0) NaN NaN` <br> ` D1027 NaNNaN (4311, 4310, 1) NaN` <br> ` L11 NaN NaN NaN (3686, 3677, 1)` <br> <br> -> <br> ` C4 (3651, 3651, 1)` <br> ` B58 (4367, 5285, 0)`<br> `D1027 (4311, 4310, 1)` <br> ` L11 (3686, 3677, 1)` <br> ` Имя: СТОЛБЕЦ, dtype: объект` <br> Отвратительные параметры редактирования…
Ответ №3:
Для решения на месте вы можете использовать pd.Series.update
с pd.DataFrame.pop
:
df['feedback_id'].update(df.pop('_id'))
print(df)
feedback_id
0 568a8c25cac4991645c287ac
1 568df45b177e30c6487d3603
2 568df434832b090048f34974
3 568cd22e9e82dfc166d7dff1
4 568df3f0832b090048f34711
5 568e5a38b4a797c664143dda
Ответ №4:
ниже должно работать, если нет, проверьте с помощью null в ваших столбцах np.nan или pd.NaT, только pd.NaT будет работать
df[['col1','col2']].bfill(axis=1).iloc[:, 0]