проверка, находятся ли значения в pandas df внутри списков в столбцах второго df

#python #pandas #performance #dataframe #optimization

#python #pandas #Производительность #фрейм данных #оптимизация

Вопрос:

У меня есть 2 фрейма данных df1: имеет 4 столбца, в каждом столбце есть список со значениями внутри df2: имеет один столбец (col), столбец имеет 1 значение

Я хочу проверить, находятся ли какие-либо значения в df2 (col) внутри любого из списков в строках df1 (col1) или df1 (col2), затем сохраните эту строку (df1 с 4 столбцами)

Вот некоторые случайные данные для примера:

 df1 = pd.DataFrame({'col1': [[32, 24, 5, 6], [4, 8, 14], 
                            [12, 32, 234, 15, 6], [45]], 
                    'col2': [[13, 333 ,5], [32, 28, 5, 9], 
                            [4], [12, 45, 21]],
                    'col3': [['AS', 'EWE', 'SADF', 'EW'], 
                            ['EW', 'HHT', 'IYT'], ['C', 'KJG', 'TF', 'VC', 'D'], ['BX']], 
                    'col4': [['HG', 'FDGD' ,'F'], ['FDG', 'Y', 'FS', 'RT'], 
                            ['T'], ['XC', 'WE', 'TR']]
                    })

df2 = pd.DataFrame({'col': [1, 333, 8, 11, 45]})
 

df1:

                    col1            col2                 col3              col4
0        [32, 24, 5, 6]    [13, 333, 5]  [AS, EWE, SADF, EW]     [HG, FDGD, F]
1            [4, 8, 14]  [32, 28, 5, 9]       [EW, HHT, IYT]  [FDG, Y, FS, RT]
2  [12, 32, 234, 15, 6]             [4]  [C, KJG, TF, VC, D]               [T]
3                  [45]    [12, 45, 21]                 [BX]      [XC, WE, TR]
 

df2:

    col
0    1
1  333
2    8
3   11
4   45
 

Этот код работает нормально, но я использую большие данные, поэтому для его завершения требуется много времени.
Поэтому мне интересно, есть ли какой-либо способ его оптимизировать.

 for index, row in df1.iterrows():
    if (any(itm in row['col1'] for itm in df2['col'])):
        df3 = df3.append(row)
    elif (any(itm in row['col2'] for itm in df2['col'])):
        df3 = df3.append(row)
 

И вот как будет выглядеть результат:

              col1            col2                 col3              col4
0  [32, 24, 5, 6]    [13, 333, 5]  [AS, EWE, SADF, EW]     [HG, FDGD, F]
1      [4, 8, 14]  [32, 28, 5, 9]       [EW, HHT, IYT]  [FDG, Y, FS, RT]
3            [45]    [12, 45, 21]                 [BX]      [XC, WE, TR]
 

Выводом может быть либо новый df, либо столбец в df1 с ‘1’ или ‘0’, если значение есть или нет ни в одном из двух столбцов.

Обновить:

Следуя подходу cs95, я смог улучшить производительность кода.

Мой предыдущий код занял бы 55 секунд, с его подходом это всего 8 мс, так что ускорение составляет около x690.

Комментарии:

1. Привет и спасибо за согласие. Каков коэффициент ускорения пересмотренного решения?

2. Привет, спасибо за помощь! Я подробнее рассмотрю написание более эффективного кода. Коэффициент ускорения составил около x690

Ответ №1:

Конечно, мы можем использовать setlookups для ускорения этого:

 lookup = {*df2['col']}
df1[~df1[['col1', 'col2']].applymap(lookup.isdisjoint).all(axis=1)]

             col1            col2                 col3              col4
0  [32, 24, 5, 6]    [13, 333, 5]  [AS, EWE, SADF, EW]     [HG, FDGD, F]
1      [4, 8, 14]  [32, 28, 5, 9]       [EW, HHT, IYT]  [FDG, Y, FS, RT]
3            [45]    [12, 45, 21]                 [BX]      [XC, WE, TR]
 

Сложно работать со столбцами списков. Мы можем упростить задачу, признав, что мы можем использовать applymap , поскольку каждая ячейка в df1['col1'] и df1['col2'] должна проходить ту же проверку (поиск по df2['col'] ). Затем используйте небольшую логическую логику, чтобы определить, какие строки нужно удалить, и вы получите конечный результат.

Ваш код содержит двойной удар с использованием iterrows и append . Никогда не выполняйте итерацию по фрейму данных, потому что это медленно и тратит память, и никогда не увеличивайте фрейм данных по тем же причинам.


 lookup
# {1, 8, 11, 45, 333}

# get cells that have no elements in common
df1[['col1', 'col2']].applymap(lookup.isdisjoint)

    col1   col2
0   True  False
1  False   True
2   True   True
3  False  False

# get rows who have no columns in common
df1[['col1', 'col2']].applymap(lookup.isdisjoint).all(axis=1)
 
0    False
1    False
2     True
3    False
dtype: bool

# invert the condition to get rows to keep
~df1[['col1', 'col2']].applymap(lookup.isdisjoint).all(axis=1)

0     True
1     True
2    False
3     True
dtype: bool