#python #pandas
#python #pandas
Вопрос:
Я пытаюсь добавить дублированные строки в один столбец. Дублирование основано на некоторых столбцах, которые должны точно совпадать, чтобы строка объявлялась как совпадающая. проблема в том, что мы не можем сказать, сколько повторяющихся строк будет там, поэтому решение должно быть общим.
Я пробовал какое-то другое решение, но они основаны на некотором user_id или ключевом столбце. В моем случае все столбцы, кроме одного, должны сравниваться точно. и добавленные столбцы должны иметь одинаковое имя столбца.
Я использовал следующий код для поиска дублирующихся строк:
col = ['TITLE', 'ISSN', 'e-ISSN', 'ISBN', 'e-ISBN']
duplicated_data = data[data.duplicated(col, keep=False)]
Теперь я не знаю, что делать дальше
Вот пример ввода вывода
входные данные:
------------------------------
DealName | Target | Category |
-----------------------------
ABC-XYZ | ABC | A |
------------------------------
ABC-XYZ | ABC | B |
------------------------------
ABC-XYZ | None | C |
выходные данные:
------------------------------------------------------------------------------------------
DealName | Target | Category |DealName | Target | Category
---------------------------------------------------------------------------------------
ABC-XYZ | ABC | A |ABC-XYZ | ABC | B
Предположим, я установил условие, что для выбора строки необходимо сопоставить первые два столбца, поскольку 3-я строка не имеет того же значения во втором столбце, которое мы проигнорировали.
Комментарии:
1. Пожалуйста, не публикуйте изображения данных. Существует ряд параметров форматирования, которые облегчают публикацию фактического текста.
2. @Jacobr365 Прошу прощения, я отредактирую его. Какая-либо конкретная причина не размещать изображение?
3. Вы все еще просто публикуете изображение. Данные, разделенные запятыми, которые мы можем копировать и передавать, были бы лучшими. Нам не нравятся картинки, потому что, если мы пытаемся воссоздать вашу проблему, а вы предоставили только изображения, нам нужно просмотреть изображения и расшифровать все ваши данные. Если вы публикуете данные в виде текста, мы можем просто скопировать и вставить их. Это просто упрощает помощь вам и увеличивает вероятность того, что кто-то найдет время, чтобы помочь.
4. Невозможно скопировать / вставить его и поиграть с данными.
5. Спасибо за разъяснение. Я отредактировал сообщение