#python
#python
Вопрос:
У меня есть dataframe
что-то вроде этого:
col_0 col_1 col_2 col_3
Type_1 data1 data2 data3
Type_2 data2 data1 data3
Type_3 data4
Type_4 data4 data5
Обратите внимание, что type_1
и type_2
строки по-прежнему являются дубликатами, просто значения помещаются в разные столбцы. Кроме того, col_0
не следует включать проверку на наличие дубликатов.
Итак, я хочу добавить новый столбец с новым именем или ID
, который имеет то же ID
самое для повторяющихся строк. Желаемый результат будет выглядеть примерно так:
col_0 col_1 col_2 col_3 col_4
Type_1 data1 data2 data3 1
Type_2 data2 data1 data3 1
Type_3 data4 2
Type_4 data4 data5 3
Комментарии:
1. Каков тип данных col1 / 2 / 3 ? Кроме того, как вы обрабатываете пропущенные значения?
2. Все они являются строковыми данными. Пропущенные значения следует игнорировать, потому что, если в одной строке отсутствует значение, в другой его нет.
3. Основная идея звучит примерно так: 1. Объединить значения из col1 / 2 / 3 в новый столбец (скажем
col_combined
) 2. Поддерживать хэш-карту от комбинированного значения до идентификатора столбца 3. Используйте эту хэш-карту для заполнения col44. вы можете поместить их все во временный буфер, отсортировать их все, сравнить на равенство, обновить идентификаторы несортированных данных