#nlp #match #string-matching #similarity
Вопрос:
Мне нужно сопоставлять очень короткие строки друг с другом, например, Имя — адрес электронной почты.
В настоящее время я использую набор показателей сходства строк (Левенштейн, Яровинклер, твограмм и т. Д.), Но результат не всегда так хорош, как ожидалось. Я хочу создать обучаемую модель для этой задачи.
Первоначальная идея состояла в том, чтобы использовать некоторый классификатор поверх показателей сходства строк, но эта идея кажется не очень хорошей.
Из-за того, что строка очень короткая и отсутствует контекст, нет смысла применять встраиваемые файлы, такие как USE.
Пример данных:
- Совпадение
ckglass
с одним из['Glass, Christo K', 'Leo, Klaus', 'Luo, Liangzhi', 'Carl K Gauss']
- Совпадение
pmaddox
с одним из['Maddox, Peter S', 'Maddox, Arnie S', 'Dox P Mad']
и т.д.
Спасибо за любой совет.