#apache #uima #ruta
#apache #uima #ruta
Вопрос:
Я работаю над UIMA Ruta с использованием eclipse, в котором я создал аннотаторы для извлечения текста, аннотаторы выделяют требуемый текст, но выходные файлы, созданные Ruta (следуя правилам аннотатора), имеют формат XML. Я хочу знать, как создать выходные данные аннотаторов в отдельном текстовом файле.
Я попытался получить выходные данные с помощью запроса Ruta, но результат показан в новом всплывающем окне, которое не сохраняет выходные данные, ссылаясь на документы, узнал, что я должен сохранить выходные данные вручную
Хочу получить текстовый файл, в котором сохранены только выходные данные аннотаторов.
Ответ №1:
Поскольку UIMA Ruta является частью платформы обработки текста Apache UIMA, чтобы сохранить созданные аннотации с помощью Ruta отдельно, вам нужно будет извлечь нужные аннотации из выходных данных, сгенерированных Ruta с помощью UIMA.
Хорошую отправную точку с UIMA можно найти здесь
В принципе, как только у вас есть JCA, требуемые аннотации могут быть извлечены с помощью:
Collection<YourAnnotationType> annotations = JCasUtil.select(jCas, YourAnnotationType.class);
С этого момента annotations
(вместе с их функциями) можно сохранить во внешний CSV-файл.