Сравните два кадра данных и экспортируйте несопоставимые данные с помощью pandas или других пакетов?

#python-3.x #pandas #dataframe #random

Вопрос:

У меня есть два кадра данных, и один из них является подмножеством другого (рисунок ниже). Я не уверен, могут ли панды сравнивать два кадра данных, фильтровать данные, которых нет в подмножестве, и экспортировать их в виде кадра данных. Или есть какой-нибудь пакет, выполняющий такого рода задачи?

Фрейм данных подмножества был сгенерирован из RandomUnderSampler , но RandomUnderSampler не имел функции, которая экспортирует невыбранные данные. Любые комментарии приветствуются.

введите описание изображения здесь

Комментарии:

1. Не могли бы вы привести минимальный воспроизводимый пример? Пример входных данных в виде текста и ожидаемых выходных данных.

Ответ №1:

Использовать drop_duplicates с keep=False параметром:

Пример:

 >>> df1
   A  B
0  0  1
1  2  3
2  4  5
3  6  7
4  8  9

>>> df2
   A  B
0  0  1
1  2  3
2  6  7

>>> pd.concat([df1, df2]).drop_duplicates(keep=False)
   A  B
2  4  5
4  8  9