Сравнение 2 файлов csv для удаления строк

#python #pandas #csv #pycharm

#python #панды #csv #pycharm

Вопрос:

У меня есть 2 csv-файла, которые содержат информацию, связанную друг с другом. Каждая строка одного файла csv соответствует другой строке в другом файле. Чтобы подготовить данные, мне нужно было удалить определенные значения из первого файла csv, что привело к удалению определенных строк из этого файла. Теперь, когда я печатаю эти строки, они прыгают. В качестве примера определенная часть первого файла csv переходит от номера строки 20838 к 20842, 20843 и т.д. Итак, что я хочу сделать, это сравнить первый файл csv, в котором были удалены определенные строки, со вторым файлом csv и удалить строки, которых в данный момент нет в первом файле csv, из второго файла csv, а затем изменить порядок всех строк, чтобы в обоих файлах csv были строки, перечисленные от 0 до 20000. Я использую Pandas и numpy. Это код, который я использовал для удаления информации из первого файла csv:

 data_csv1 = pd.read_csv("address1")
data_csv2 = pd.read_csv("address2")
data_csv1.drop(data.columns[[0]], axis = 1)
data_csv1 = data_csv1[(data_csv1 !=0).all(1)]
  

Как бы я это сделал? Лично мне все равно, будут ли данные удалены или просто проигнорированы, мне просто нужно, чтобы оба файла csv содержали одинаковые номера строк.

Ответ №1:

предполагая, что при запуске ваши два файла имели одинаковый индекс, вы можете передать индекс первого файла второму файлу после последующей обработки:

 data_csv2 = data_csv2.iloc[data_csv1.index]