Как объединить строки с одинаковыми значениями, но с другим значением в одном конкретном столбце?

#python #pandas #dataframe #data-manipulation

Вопрос:

Я работаю над проектом, и в настоящее время я обрабатываю данные вручную и очищаю их, чтобы позже выполнить EDA.

Я работаю над базой данных с различными продуктами, которыми владеет компания. У меня есть столбцы «PRODUCT_ID», «ЕДИНИЦА ИЗМЕРЕНИЯ», «LEVEL_1», «LEVEL_2», «LEVEL_3», «LEVEL_4». Первое объясняется само собой. Второй говорит, является ли это единым целым, пакетом, дюжиной и т. Д. Каждый уровень — это один уровень категории. Так, например, сначала я говорю, что у меня есть продукт для собак (уровень 1). Затем это еда (уровень 2), которая является закуской (уровень 3), которая является «собачьей сладостью» (уровень 4). Это был всего лишь пример.

Дошло до того, что я заметил, что у меня много данных с одинаковыми категориями (т. Е. Разные строки с одинаковыми значениями для всех 4 уровней), но другой идентификатор продукта.

Я бы счел, что это либо ошибка нескольких записей, либо разных продуктов. Но поскольку у меня нет их имени, я просто хотел бы объединить эти разные идентификаторы продуктов с их конкретной категорией.

Я считаю, что составление словаря, а затем применение какой-либо лямбда-функции, вероятно, лучший способ, но я пытался это сделать и не смог придумать что-то осязаемое.

Пример таблицы, над которым я работаю

У тебя есть какие-нибудь идеи, что я мог бы сделать?

Комментарии:

1. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.