Извлечение пользовательских объектов из текстов

#nlp #named-entity-recognition

#nlp #распознавание именованных объектов

Вопрос:

Каков правильный подход для извлечения / классификации текстовой информации с несколькими метками

Наличие текстов, описывающих посещение лица, осуществляющего уход / пациента: (выдуманный пример)

Г-н *** посещает клинику 02/2/2018 с жалобами на боль в нижней части спины в течение нескольких дней, никаких патологических результатов на рентгене или в анализах крови. Я предлагаю мистеру *** 5 дней отдыха.

Теперь этот текст может быть даже размером в абзац, где единственной информацией, которая меня интересует, будут боли в пояснице и дни отдыха. У меня есть 300-400 различных меток, но количество помеченных образцов может составлять около 1000-1500 (всего). Когда я помечаю текст, я также отмечаю соответствующие слова, которые создают «метку» , здесь это будет [‘pain’, ‘lower’, ‘back’].

Когда я просто использую поиск для этих слов (или других 300-400 меток) в других текстах, мне удается пометить большее количество текстов, но если слова написаны по другим шаблонам, таким как боль в пояснице или «боль в пояснице», и я никогда не добавлял этот шаблон в таблицу поиска «боль в пояснице», я его не найду.

Из-за того, что у меня может быть большой абзац, но единственная информация, которая мне нужна, — это всего 3-4 слова, модели DL / ML не справляются с обучением с таким объемом данных и большим количеством меток.Мне интересно, есть ли способ использовать таблицу поиска в качестве функции на этапе обучения или попробовать другие подходы

Комментарии:

1. Вы, кажется, описываете две проблемы: А) Существует большое количество меток Б) Каждая метка может иметь несколько поверхностей.

2. Что я пытаюсь понять, так это то, что классификация текста di является правильным решением или я должен использовать другие методы

3. Вам может сойти с рук что-то вроде алгоритма ахо-Корасика.