#python-3.x #pandas #dataframe #random
Вопрос:
У меня есть два кадра данных, и один из них является подмножеством другого (рисунок ниже). Я не уверен, могут ли панды сравнивать два кадра данных, фильтровать данные, которых нет в подмножестве, и экспортировать их в виде кадра данных. Или есть какой-нибудь пакет, выполняющий такого рода задачи?
Фрейм данных подмножества был сгенерирован из RandomUnderSampler
, но RandomUnderSampler
не имел функции, которая экспортирует невыбранные данные. Любые комментарии приветствуются.
Комментарии:
1. Не могли бы вы привести минимальный воспроизводимый пример? Пример входных данных в виде текста и ожидаемых выходных данных.
Ответ №1:
Использовать drop_duplicates
с keep=False
параметром:
Пример:
>>> df1
A B
0 0 1
1 2 3
2 4 5
3 6 7
4 8 9
>>> df2
A B
0 0 1
1 2 3
2 6 7
>>> pd.concat([df1, df2]).drop_duplicates(keep=False)
A B
2 4 5
4 8 9