#python #python-3.x #listview #arraylist
#python #python-3.x #listview #arraylist
Вопрос:
У меня есть набор данных со следующими столбцами: ИМЕНА КЛИЕНТОВ, КАТЕГОРИЯ ПРОДУКТА, НАЗВАНИЯ ПРОДУКТОВ и ИДЕНТИФИКАТОР. В столбце НАЗВАНИЙ ПРОДУКТОВ большинство продуктов были написаны с ошибками, например, с заменой букв, неполными именами, неправильно набранными и т. Д. В нашей базе данных 7000 различных названий продуктов. Я ищу скрипт на python, который может исправить названия продуктов с ошибками.
Заранее благодарю вас!
Комментарии:
1. Я не уверен в этом, потому что, если у вас нет правильных имен в другом месте / столбце. А также, если их нет, потому что, если вы используете средство проверки орфографии, какой-то конкретный продукт может быть написан неправильно.
2. Но действительно интересный вопрос, чувак
3. Да, @TroyD, есть столбец с правильными именами, но проблема в том, чтобы узнать, какое имя среди правильных, человек хотел ввести, а затем исправить его.
Ответ №1:
Возможно, попробуйте проверить язык.
Требования:
- Python v3.3 (или 2.7)
- Java версии 6.0 или выше.
Может быть, что-то вроде этого (я не проверял)…
Допустим PRODUCT_NAMES
, это извлеченный столбец из вашей базы данных.
import language_check
tool = language_check.LanguageTool('en-US')
PRODUCT_NAMES = ["switched", "bycucle"]
NEW_PRODUCT_NAMES = []
for item in PRODUCT_NAMES:
matches = tool.check(item)
suggestion = language_check.correct(item, matches)
NEW_PRODUCT_NAMES.append(suggestion)
Комментарии:
1. Эй, братан, есть столбец «Правильные имена», так что тебе просто нужно, просто заменить материал