Неконтролируемый подход машинного обучения к извлечению шаблона из текстовых данных с использованием python?

#python #machine-learning #nlp #text-classification #pattern-recognition

#python #машинное обучение #nlp #классификация текста #распознавание шаблона

Вопрос:

Я хотел бы знать, как использовать неконтролируемый подход для извлечения шаблона из текстовых данных.

У меня есть набор данных об описании продукта в виде заголовка, краткого и длинного описания.Моя цель — найти значение атрибута product, используя доступное описание.Значение, которое я пытаюсь найти, присутствует в descripton во многих вариантах.

 Below are few examples of attribute which product has:

1. recomended minimum and maximum age for particular product.(get the values)

2. Is particular product is made from recycling or not ? (Yes or no).

3. Is remote control included for particular product ? (yes or no)
  

В настоящее время я использую регулярное выражение, чтобы получить значения / определить, присутствует ли оно в данных или нет. Но очень сложно найти значения, поскольку я упоминал, что значения присутствуют во многих вариациях. Я не могу написать все правила или, более конкретно, сказать, что я не могу обобщить эти шаблоны. Если появляются новые изменения, то мое регулярное выражение завершается ошибкой.

Мне было интересно, существует ли какой-либо достаточно интуитивно понятный способ автоматического построения этих шаблонов регулярных выражений с помощью какого-либо алгоритма.

Как мне использовать подход машинного обучения для построения некоторой интеллектуальной модели, которая может решить мою проблему.

Ниже приведен один пример описания продукта.

 Example:

UVM1067  Features   Quantity per Selling Unit: 1 Set  **Total Recycled Content: 30pct**  Product Keywords: Kleer-Fax, Inc., Indexes, 8 Color, 10 Color Binders  Sets per Pack: 1  Tab Style: 15-Tab  Color: Multicolor  Country of Manufacture: United States  Index Divider Style: Printed Numeric   Dimensions   Overall Height - Top to Bottom: 11''  Overall Width - Side to Side: 8.5''  Overall Product Weight: 0.3 lbs
  

Вы можете видеть в приведенном выше описании продукта, в котором упоминалось, что total recycled это означает, что продукт изготовлен из вторичного сырья, поэтому я хотел бы предсказать ‘Y’ в качестве моего вывода.

Я могу сделать это путем поиска word или regex, но я хочу создать какую-нибудь интеллектуальную / автоматическую модель / способ достижения этого.

Спасибо,

Ниранджан

Комментарии:

1. Во всяком случае, это проблема контролируемого машинного обучения. Распознавание шаблона по определению требует, чтобы вы указали соответствующий шаблон.

2. да, у меня есть шаблон, это означает, что я знаю, что извлекать, но он появляется во многих вариантах текста. Вот почему я не могу это автоматизировать. Мне нужно написать правила / регулярное выражение для каждого изменения. Для этого мне нужно просмотреть текст вручную, поэтому очень сложно найти все варианты. Здесь я не могу обучить свою программу выполнять автоматизацию.