Как я могу очистить названия продуктов в python, которые были написаны с ошибками при вводе?

#python #python-3.x #listview #arraylist

#python #python-3.x #listview #arraylist

Вопрос:

У меня есть набор данных со следующими столбцами: ИМЕНА КЛИЕНТОВ, КАТЕГОРИЯ ПРОДУКТА, НАЗВАНИЯ ПРОДУКТОВ и ИДЕНТИФИКАТОР. В столбце НАЗВАНИЙ ПРОДУКТОВ большинство продуктов были написаны с ошибками, например, с заменой букв, неполными именами, неправильно набранными и т. Д. В нашей базе данных 7000 различных названий продуктов. Я ищу скрипт на python, который может исправить названия продуктов с ошибками.

Заранее благодарю вас!

Комментарии:

1. Я не уверен в этом, потому что, если у вас нет правильных имен в другом месте / столбце. А также, если их нет, потому что, если вы используете средство проверки орфографии, какой-то конкретный продукт может быть написан неправильно.

2. Но действительно интересный вопрос, чувак

3. Да, @TroyD, есть столбец с правильными именами, но проблема в том, чтобы узнать, какое имя среди правильных, человек хотел ввести, а затем исправить его.

Ответ №1:

Возможно, попробуйте проверить язык.

Требования:

  • Python v3.3 (или 2.7)
  • Java версии 6.0 или выше.

Может быть, что-то вроде этого (я не проверял)…
Допустим PRODUCT_NAMES , это извлеченный столбец из вашей базы данных.

 import language_check
tool = language_check.LanguageTool('en-US')

PRODUCT_NAMES = ["switched", "bycucle"]

NEW_PRODUCT_NAMES = []
for item in PRODUCT_NAMES:
    matches = tool.check(item)
    suggestion = language_check.correct(item, matches)
    NEW_PRODUCT_NAMES.append(suggestion)
 

Комментарии:

1. Эй, братан, есть столбец «Правильные имена», так что тебе просто нужно, просто заменить материал