#python #pandas #performance #dataframe #optimization
#python #pandas #Производительность #фрейм данных #оптимизация
Вопрос:
У меня есть 2 фрейма данных df1: имеет 4 столбца, в каждом столбце есть список со значениями внутри df2: имеет один столбец (col), столбец имеет 1 значение
Я хочу проверить, находятся ли какие-либо значения в df2 (col) внутри любого из списков в строках df1 (col1) или df1 (col2), затем сохраните эту строку (df1 с 4 столбцами)
Вот некоторые случайные данные для примера:
df1 = pd.DataFrame({'col1': [[32, 24, 5, 6], [4, 8, 14],
[12, 32, 234, 15, 6], [45]],
'col2': [[13, 333 ,5], [32, 28, 5, 9],
[4], [12, 45, 21]],
'col3': [['AS', 'EWE', 'SADF', 'EW'],
['EW', 'HHT', 'IYT'], ['C', 'KJG', 'TF', 'VC', 'D'], ['BX']],
'col4': [['HG', 'FDGD' ,'F'], ['FDG', 'Y', 'FS', 'RT'],
['T'], ['XC', 'WE', 'TR']]
})
df2 = pd.DataFrame({'col': [1, 333, 8, 11, 45]})
df1:
col1 col2 col3 col4
0 [32, 24, 5, 6] [13, 333, 5] [AS, EWE, SADF, EW] [HG, FDGD, F]
1 [4, 8, 14] [32, 28, 5, 9] [EW, HHT, IYT] [FDG, Y, FS, RT]
2 [12, 32, 234, 15, 6] [4] [C, KJG, TF, VC, D] [T]
3 [45] [12, 45, 21] [BX] [XC, WE, TR]
df2:
col
0 1
1 333
2 8
3 11
4 45
Этот код работает нормально, но я использую большие данные, поэтому для его завершения требуется много времени.
Поэтому мне интересно, есть ли какой-либо способ его оптимизировать.
for index, row in df1.iterrows():
if (any(itm in row['col1'] for itm in df2['col'])):
df3 = df3.append(row)
elif (any(itm in row['col2'] for itm in df2['col'])):
df3 = df3.append(row)
И вот как будет выглядеть результат:
col1 col2 col3 col4
0 [32, 24, 5, 6] [13, 333, 5] [AS, EWE, SADF, EW] [HG, FDGD, F]
1 [4, 8, 14] [32, 28, 5, 9] [EW, HHT, IYT] [FDG, Y, FS, RT]
3 [45] [12, 45, 21] [BX] [XC, WE, TR]
Выводом может быть либо новый df, либо столбец в df1 с ‘1’ или ‘0’, если значение есть или нет ни в одном из двух столбцов.
Обновить:
Следуя подходу cs95, я смог улучшить производительность кода.
Мой предыдущий код занял бы 55 секунд, с его подходом это всего 8 мс, так что ускорение составляет около x690.
Комментарии:
1. Привет и спасибо за согласие. Каков коэффициент ускорения пересмотренного решения?
2. Привет, спасибо за помощь! Я подробнее рассмотрю написание более эффективного кода. Коэффициент ускорения составил около x690
Ответ №1:
Конечно, мы можем использовать setlookups для ускорения этого:
lookup = {*df2['col']}
df1[~df1[['col1', 'col2']].applymap(lookup.isdisjoint).all(axis=1)]
col1 col2 col3 col4
0 [32, 24, 5, 6] [13, 333, 5] [AS, EWE, SADF, EW] [HG, FDGD, F]
1 [4, 8, 14] [32, 28, 5, 9] [EW, HHT, IYT] [FDG, Y, FS, RT]
3 [45] [12, 45, 21] [BX] [XC, WE, TR]
Сложно работать со столбцами списков. Мы можем упростить задачу, признав, что мы можем использовать applymap
, поскольку каждая ячейка в df1['col1']
и df1['col2']
должна проходить ту же проверку (поиск по df2['col']
). Затем используйте небольшую логическую логику, чтобы определить, какие строки нужно удалить, и вы получите конечный результат.
Ваш код содержит двойной удар с использованием iterrows
и append
. Никогда не выполняйте итерацию по фрейму данных, потому что это медленно и тратит память, и никогда не увеличивайте фрейм данных по тем же причинам.
lookup
# {1, 8, 11, 45, 333}
# get cells that have no elements in common
df1[['col1', 'col2']].applymap(lookup.isdisjoint)
col1 col2
0 True False
1 False True
2 True True
3 False False
# get rows who have no columns in common
df1[['col1', 'col2']].applymap(lookup.isdisjoint).all(axis=1)
0 False
1 False
2 True
3 False
dtype: bool
# invert the condition to get rows to keep
~df1[['col1', 'col2']].applymap(lookup.isdisjoint).all(axis=1)
0 True
1 True
2 False
3 True
dtype: bool