cuDF для улучшения сравнения строк

#python #cudf

#python #cudf

Вопрос:

Я работаю над поиском совпадений между 2 большими CSV-файлами. Я использую эту функцию для вычисления сходства между 2 строками. Если заданное соотношение больше заданного порогового значения, я приму это как совпадение.

def similar(a, b): return SequenceMatcher(None, a, b).ratio()

Поскольку мне нужно просмотреть каждую строку обоих файлов, временная сложность равна O (n ^ 2). Я рассматривал возможность использования хэша для уменьшения временной сложности до O (n), но это ограничило бы мое совпадение точным совпадением без гибкости. Однако выполнение первого подхода на моем локальном компьютере с процессором заняло бы у меня несколько дней. Поэтому мне интересно, есть ли способ использовать cuDF для ускорения работы с графическим процессором.

Кроме того, когда я попробовал функцию cuDF applymap, она сказала, что она не поддерживает string dtype, так есть ли какой-либо другой способ, которым я могу использовать cuDF для реализации этого? Спасибо!