Как удалить значение nan при объединении двух столбцов во фрейме данных Panda?

#python #pandas

Вопрос:

Я пытаюсь, но не могу удалить nan при объединении двух столбцов a DataFrame .

Данные похожи:

 feedback_id                  _id
568a8c25cac4991645c287ac     nan    
568df45b177e30c6487d3603     nan    
nan                          568df434832b090048f34974       
nan                          568cd22e9e82dfc166d7dff1   
568df3f0832b090048f34711     nan
nan                          568e5a38b4a797c664143dda   
 

Я хочу:

 feedback_request_id
568a8c25cac4991645c287ac
568df45b177e30c6487d3603
568df434832b090048f34974
568cd22e9e82dfc166d7dff1
568df3f0832b090048f34711
568e5a38b4a797c664143dda
 

Вот мой код:

 df3['feedback_request_id'] = ('' if df3['_id'].empty else df3['_id'].map(str))   ('' if df3['feedback_id'].empty else df3['feedback_id'].map(str))
 

Вывод, который я получаю:

 feedback_request_id
568a8c25cac4991645c287acnan
568df45b177e30c6487d3603nan
nan568df434832b090048f34974
nan568cd22e9e82dfc166d7dff1
568df3f0832b090048f34711nan
nan568e5a38b4a797c664143dda
 

Я тоже пробовал это:

 df3['feedback_request_id'] = ('' if df3['_id']=='nan' else df3['_id'].map(str))   ('' if df3['feedback_id']=='nan' else df3['feedback_id'].map(str))
 

Но это приводит к ошибке:

 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
 

Ответ №1:

Вы можете использовать combine_first или fillna :

 print df['feedback_id'].combine_first(df['_id'])
0    568a8c25cac4991645c287ac
1    568df45b177e30c6487d3603
2    568df434832b090048f34974
3    568cd22e9e82dfc166d7dff1
4    568df3f0832b090048f34711
5    568e5a38b4a797c664143dda
Name: feedback_id, dtype: object

print df['feedback_id'].fillna(df['_id'])
0    568a8c25cac4991645c287ac
1    568df45b177e30c6487d3603
2    568df434832b090048f34974
3    568cd22e9e82dfc166d7dff1
4    568df3f0832b090048f34711
5    568e5a38b4a797c664143dda
Name: feedback_id, dtype: object
 

Комментарии:

1. Это позволит объединить только две колонки, bfill это лучший вариант

Ответ №2:

Если вам нужно решение, которое не требует явной ссылки df дважды или на любой из его столбцов:

 df.bfill(axis=1).iloc[:, 0]
 

С двумя столбцами это приведет к копированию ненулевых значений из правого столбца в левый, затем выберите левый столбец.

Комментарии:

1. Заменит ли это значения nan в копируемом столбце?

2. Это превосходно — он будет обрабатывать несколько столбцов: <br> <br><br> ` ЛИНИЯ СКОБЫ БАЛКИ СТОЛБЦА` <br><br> ` C4 (3651, 3651, 1) НаН НаН нан` <br><br> ` B58 НаН (4367, 5285, 0) НаН НаН` <br><br> ` D1027 НаН НаН (4311, 4310, 1) НаН` <br><br> ` L11 НаН НаН нан (3686, 3677, 1)` <br><br> <br>- <br>> <br>><br> ` C4 (3651, 3651, 1)`<br> <br> ` B58 (4367, 5285, 0)`<br> <br> ` D1027 (4311, 4310, 1)`<br> <br> ` L11 (3686, 3677, 1)`<br> <br> ` Имя: СТОЛБЕЦ, тип dtype: объект`<br> <br>Отвратительные параметры редактирования…

Ответ №3:

Для решения на месте вы можете использовать pd.Series.update с pd.DataFrame.pop :

 df['feedback_id'].update(df.pop('_id'))

print(df)

                feedback_id
0  568a8c25cac4991645c287ac
1  568df45b177e30c6487d3603
2  568df434832b090048f34974
3  568cd22e9e82dfc166d7dff1
4  568df3f0832b090048f34711
5  568e5a38b4a797c664143dda
 

Ответ №4:

ниже должно работать, если нет, проверьте с нулем в ваших столбцах np.nan или pd.NaT, только pd.НаТ будет работать

 df[['col1','col2']].bfill(axis=1).iloc[:, 0]