#python #pandas #dataframe #csv #duplicates
#python #pandas #dataframe #csv #дубликаты
Вопрос:
Итак, я выполняю некоторую базовую обработку данных. в столбце ‘updated_at’ я получаю одно и то же значение, отображаемое несколько раз. Как мне удалить их все, кроме одного? Надеюсь, картинка поможет. дайте мне знать, если вам, ребята, нужны дополнительные разъяснения.
df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()
Я попробовал приведенный выше код, но не сработал
[изображение]
Ответ №1:
import pandas as pd
df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df
Ответ №2:
Если вам нужно только рассмотреть столбец updated_add, вы можете использовать приведенный ниже код. Альтернативный вариант отбросьте аргумент subset, если вам нужно, чтобы элементы во всех ваших столбцах были одинаковыми перед удалением строки.
data.drop_duplicates(subset =»updated_at», inplace = True)
Смотрите Ссылку ниже для получения дополнительных опций https://pandas.pydata.org/docs/reference/api/pandas .DataFrame.drop_duplicates.html