Обучаемая модель подобия строк для очень коротких строк

#nlp #match #string-matching #similarity

Вопрос:

Мне нужно сопоставлять очень короткие строки друг с другом, например, Имя — адрес электронной почты.
В настоящее время я использую набор показателей сходства строк (Левенштейн, Яровинклер, твограмм и т. Д.), Но результат не всегда так хорош, как ожидалось. Я хочу создать обучаемую модель для этой задачи.
Первоначальная идея состояла в том, чтобы использовать некоторый классификатор поверх показателей сходства строк, но эта идея кажется не очень хорошей.
Из-за того, что строка очень короткая и отсутствует контекст, нет смысла применять встраиваемые файлы, такие как USE.

Пример данных:

Совпадение ckglass с одним из ['Glass, Christo K', 'Leo, Klaus', 'Luo, Liangzhi', 'Carl K Gauss']
Совпадение pmaddox с одним из ['Maddox, Peter S', 'Maddox, Arnie S', 'Dox P Mad']
и т.д.

Спасибо за любой совет.

Вопрос:

Вам также может понравиться

JTable removeRow(), удаление неправильной строки

Десериализовать GenericXmlSecurityToken из JsonResult

Доступ к классу с пространством имен в gem против Rails