#python #pandas
#python #pandas
Вопрос:
Я пытаюсь добавить дублированные строки в один столбец. Дублирование основано на некоторых столбцах, которые должны точно совпадать, чтобы строка была объявлена как совпадающая. проблема в том, что мы не можем сказать, сколько повторяющихся строк будет там, поэтому решение должно быть общим.
Я пробовал какое-то другое решение, но они основаны на некотором user_id или ключевом столбце. В моем случае все столбцы, кроме одного, должны сравниваться точно. и добавленные столбцы должны иметь одинаковое имя столбца.
Конкат, слияние, объединение пробовали все, ничего не работает.
Я использовал следующий код для поиска дублирующихся строк:
col = ['TITLE', 'ISSN', 'e-ISSN', 'ISBN', 'e-ISBN']
duplicated_data = data[data.duplicated(col, keep=False)]
вот ввод :
------------------------------
DealName | Target | Category |
-----------------------------
ABC-XYZ | ABC | A |
------------------------------
ABC-XYZ | ABC | B |
------------------------------
ABC-XYZ | None | C |
------------------------------
ABC-XYZ | ABC | C |
------------------------------
ABC-XYZ | None | D |
------------------------------
ABC-XYZ | Zab | C |
и хотите преобразовать его во что-то вроде этого:
------------------------------------------------------------------------------------------
DealName | Target | Category |DealName | Target | Category |DealName | Target | Category |
---------------------------------------------------------------------------------------
ABC-XYZ | ABC | A |ABC-XYZ | ABC | B |ABC-XYZ | ABC | C |
------------------------------------------------------------------------------------------
ABC-XYZ | None | C |ABC-XYZ | None | D |
Предположим, я установил условие, что для выбора строки необходимо сопоставить первые два столбца,
первая, вторая и 4-я строки были добавлены как одна запись
, а третья и пятая строки были добавлены как другая запись
есть идеи, как это сделать?