Обучаемая модель подобия строк для очень коротких строк

#nlp #match #string-matching #similarity

Вопрос:

Мне нужно сопоставлять очень короткие строки друг с другом, например, Имя — адрес электронной почты.
В настоящее время я использую набор показателей сходства строк (Левенштейн, Яровинклер, твограмм и т. Д.), Но результат не всегда так хорош, как ожидалось. Я хочу создать обучаемую модель для этой задачи.
Первоначальная идея состояла в том, чтобы использовать некоторый классификатор поверх показателей сходства строк, но эта идея кажется не очень хорошей.
Из-за того, что строка очень короткая и отсутствует контекст, нет смысла применять встраиваемые файлы, такие как USE.

Пример данных:

  • Совпадение ckglass с одним из ['Glass, Christo K', 'Leo, Klaus', 'Luo, Liangzhi', 'Carl K Gauss']
  • Совпадение pmaddox с одним из ['Maddox, Peter S', 'Maddox, Arnie S', 'Dox P Mad']
    и т.д.

Спасибо за любой совет.