Исправление несогласованных вариантов написания имен в flex

#text-processing

#обработка текста

Вопрос:

В настоящее время я работаю над заданием для чтения файла BibTeX и сохранения данных обо всех категориях, авторах и их публикациях и т. Д…

Однако в файле BibTeX часто одни и те же имена пишутся по-разному, иногда даже с неизвестными символами.

Вот пример этих несоответствий:

Единственный известный мне способ сделать это — создать регулярные выражения, специфичные для каждого случая, и даже в этом случае я не знаю, сработает ли это для неизвестных символов. Однако слишком много авторов, чтобы делать это таким образом.

Как я мог бы автоматически обнаруживать и исправлять эти несоответствия правописания, чтобы правильно сохранить всех авторов и их соответствующие публикации в фильтре flex?

Ответ №1:

Предполагая, что у вас есть известный список хороших авторов, для каждого вводимого автора сопоставьте их со списком, используя fuzzywuzzy .

Если у вас нет списка известных авторов, вам нужно составить его или получить список имен откуда-нибудь, например, из Википедии.

Вопрос:

Ответ №1:

Вам также может понравиться

Содержимое дампов кучи Android

Сравните значение свойства с агрегированным значением в Gremlin

Перенос введенных пользователем данных с листа Excel в скрипт Python