#text-processing
#обработка текста
Вопрос:
В настоящее время я работаю над заданием для чтения файла BibTeX и сохранения данных обо всех категориях, авторах и их публикациях и т. Д…
Однако в файле BibTeX часто одни и те же имена пишутся по-разному, иногда даже с неизвестными символами.
Вот пример этих несоответствий:
Единственный известный мне способ сделать это — создать регулярные выражения, специфичные для каждого случая, и даже в этом случае я не знаю, сработает ли это для неизвестных символов. Однако слишком много авторов, чтобы делать это таким образом.
Как я мог бы автоматически обнаруживать и исправлять эти несоответствия правописания, чтобы правильно сохранить всех авторов и их соответствующие публикации в фильтре flex?
Ответ №1:
Предполагая, что у вас есть известный список хороших авторов, для каждого вводимого автора сопоставьте их со списком, используя fuzzywuzzy .
Если у вас нет списка известных авторов, вам нужно составить его или получить список имен откуда-нибудь, например, из Википедии.