#python #machine-learning #nlp #text-classification #pattern-recognition
#python #машинное обучение #nlp #классификация текста #распознавание шаблона
Вопрос:
Я хотел бы знать, как использовать неконтролируемый подход для извлечения шаблона из текстовых данных.
У меня есть набор данных об описании продукта в виде заголовка, краткого и длинного описания.Моя цель — найти значение атрибута product, используя доступное описание.Значение, которое я пытаюсь найти, присутствует в descripton во многих вариантах.
Below are few examples of attribute which product has:
1. recomended minimum and maximum age for particular product.(get the values)
2. Is particular product is made from recycling or not ? (Yes or no).
3. Is remote control included for particular product ? (yes or no)
В настоящее время я использую регулярное выражение, чтобы получить значения / определить, присутствует ли оно в данных или нет. Но очень сложно найти значения, поскольку я упоминал, что значения присутствуют во многих вариациях. Я не могу написать все правила или, более конкретно, сказать, что я не могу обобщить эти шаблоны. Если появляются новые изменения, то мое регулярное выражение завершается ошибкой.
Мне было интересно, существует ли какой-либо достаточно интуитивно понятный способ автоматического построения этих шаблонов регулярных выражений с помощью какого-либо алгоритма.
Как мне использовать подход машинного обучения для построения некоторой интеллектуальной модели, которая может решить мою проблему.
Ниже приведен один пример описания продукта.
Example:
UVM1067 Features Quantity per Selling Unit: 1 Set **Total Recycled Content: 30pct** Product Keywords: Kleer-Fax, Inc., Indexes, 8 Color, 10 Color Binders Sets per Pack: 1 Tab Style: 15-Tab Color: Multicolor Country of Manufacture: United States Index Divider Style: Printed Numeric Dimensions Overall Height - Top to Bottom: 11'' Overall Width - Side to Side: 8.5'' Overall Product Weight: 0.3 lbs
Вы можете видеть в приведенном выше описании продукта, в котором упоминалось, что total recycled это означает, что продукт изготовлен из вторичного сырья, поэтому я хотел бы предсказать ‘Y’ в качестве моего вывода.
Я могу сделать это путем поиска word или regex, но я хочу создать какую-нибудь интеллектуальную / автоматическую модель / способ достижения этого.
Спасибо,
Ниранджан
Комментарии:
1. Во всяком случае, это проблема контролируемого машинного обучения. Распознавание шаблона по определению требует, чтобы вы указали соответствующий шаблон.
2. да, у меня есть шаблон, это означает, что я знаю, что извлекать, но он появляется во многих вариантах текста. Вот почему я не могу это автоматизировать. Мне нужно написать правила / регулярное выражение для каждого изменения. Для этого мне нужно просмотреть текст вручную, поэтому очень сложно найти все варианты. Здесь я не могу обучить свою программу выполнять автоматизацию.