Как найти повторяющиеся строки и назначить идентификатор в новом столбце

#python

#python

Вопрос:

У меня есть dataframe что-то вроде этого:

 col_0        col_1          col_2        col_3
Type_1       data1          data2        data3
Type_2       data2          data1        data3
Type_3       data4
Type_4       data4          data5
  

Обратите внимание, что type_1 и type_2 строки по-прежнему являются дубликатами, просто значения помещаются в разные столбцы. Кроме того, col_0 не следует включать проверку на наличие дубликатов.

Итак, я хочу добавить новый столбец с новым именем или ID , который имеет то же ID самое для повторяющихся строк. Желаемый результат будет выглядеть примерно так:

 col_0        col_1          col_2        col_3     col_4
Type_1       data1          data2        data3     1
Type_2       data2          data1        data3     1
Type_3       data4                                 2
Type_4       data4          data5                  3

  

Комментарии:

1. Каков тип данных col1 / 2 / 3 ? Кроме того, как вы обрабатываете пропущенные значения?

2. Все они являются строковыми данными. Пропущенные значения следует игнорировать, потому что, если в одной строке отсутствует значение, в другой его нет.

3. Основная идея звучит примерно так: 1. Объединить значения из col1 / 2 / 3 в новый столбец (скажем col_combined ) 2. Поддерживать хэш-карту от комбинированного значения до идентификатора столбца 3. Используйте эту хэш-карту для заполнения col4

4. вы можете поместить их все во временный буфер, отсортировать их все, сравнить на равенство, обновить идентификаторы несортированных данных