Исправление несогласованных вариантов написания имен в flex

#text-processing

#обработка текста

Вопрос:

В настоящее время я работаю над заданием для чтения файла BibTeX и сохранения данных обо всех категориях, авторах и их публикациях и т. Д…

Однако в файле BibTeX часто одни и те же имена пишутся по-разному, иногда даже с неизвестными символами.

Вот пример этих несоответствий:

Различные примеры правописания

Единственный известный мне способ сделать это — создать регулярные выражения, специфичные для каждого случая, и даже в этом случае я не знаю, сработает ли это для неизвестных символов. Однако слишком много авторов, чтобы делать это таким образом.

Как я мог бы автоматически обнаруживать и исправлять эти несоответствия правописания, чтобы правильно сохранить всех авторов и их соответствующие публикации в фильтре flex?

Ответ №1:

Предполагая, что у вас есть известный список хороших авторов, для каждого вводимого автора сопоставьте их со списком, используя fuzzywuzzy .

Если у вас нет списка известных авторов, вам нужно составить его или получить список имен откуда-нибудь, например, из Википедии.