#java #nlp #opennlp
#java #nlp #opennlp
Вопрос:
У меня есть новое предстоящее требование, в котором мы должны обработать данное описание в транзакции и обработать его, чтобы разбить на заранее определенные категории.
Описание — это описание рецепта врача.
Например, «Принимать по 1 таблетке каждое утро в течение 30 дней», «принимать по 1 капсуле два раза в день в течение двух недель»
Обратите внимание, что это описание должно быть разбито на категории, например, например. дни, продолжительность, повторение, тип препарата, способ приема.
Я пытаюсь использовать apache ONLP.
Пожалуйста, предложите, как двигаться вперед в этой проблеме, чтобы сделать это более точным, поскольку решение должно быть точным.
Комментарии:
1. Попробуйте ONLP. Посмотрите, подходит ли оно вашему варианту использования
2. могу ли я создать шаблон дерева из тестовых или фиктивных данных, которые у меня есть, а затем попытаться идентифицировать все типы шаблонов по заданным данным. Чтобы обработать
Ответ №1:
Используйте пакет Illinois quantities для стандартизации числовых значений: http://cogcomp.cs.illinois.edu/demo/quantities/index.php
Ответ №2:
То, что вы хотите сделать, называется извлечением информации в терминах компьютерной лингвистики. Для начала вы можете ознакомиться с этой страницей.
Ответ №3:
Пожалуйста, ознакомьтесь cTAKES
, проект с открытым исходным кодом. Они делают то же самое, что вы хотите.
Вы можете использовать Finite State Machine
для этой цели.
Обратитесь к этому руководству, чтобы настроить этот cTAKES
проект.
Также обратитесь к этому javaDoc для единицы измерения частоты препарата.