Как удалить точные дубликаты в столбце в csv с помощью python pandas

#python #pandas #dataframe #csv #duplicates

#python #pandas #dataframe #csv #дубликаты

Вопрос:

Итак, я выполняю некоторую базовую обработку данных. в столбце ‘updated_at’ я получаю одно и то же значение, отображаемое несколько раз. Как мне удалить их все, кроме одного? Надеюсь, картинка поможет. дайте мне знать, если вам, ребята, нужны дополнительные разъяснения.

 df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()
 

Я попробовал приведенный выше код, но не сработал

[изображение]

1

Ответ №1:

 import pandas as pd

df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df
 

Ответ №2:

Если вам нужно только рассмотреть столбец updated_add, вы можете использовать приведенный ниже код. Альтернативный вариант отбросьте аргумент subset, если вам нужно, чтобы элементы во всех ваших столбцах были одинаковыми перед удалением строки.

data.drop_duplicates(subset =»updated_at», inplace = True)

Смотрите Ссылку ниже для получения дополнительных опций https://pandas.pydata.org/docs/reference/api/pandas .DataFrame.drop_duplicates.html