Использование Lingpipe для языковой модели уровня word

#java #nlp #classification #document-classification

#java #nlp #классификация #классификация документов

Вопрос:

Я пытался заставить языковую модель уровня word работать на lingpipe. Все примеры и учебные пособия, с которыми я столкнулся, показывают модель символьной граммы. Как я могу использовать lingpipe для обучения модели уровня word, а затем использовать эту модель для тестирования ее в других документах?

Кроме того, я заметил, что TokenizedLM не является сериализуемым. Нет ли способа сохранить его и загрузить позже без необходимости каждый раз проходить повторное обучение?

Наконец, существуют ли какие-либо другие фреймворки / инструменты, которые позволят мне сделать это без какого-либо кодирования с моей стороны?

Ответ №1:

Я не знаю о Java, но если вы не привязаны к этому языку программирования, есть Python NLTK, в котором есть токенизаторы и ngram-модели и много другого. Существует также книга, которую можно использовать как введение и для получения общего обзора.

1. Я знаю о NLTK, и я также никоим образом не привязан к Java. Это одна из тех проблем, «потому что она есть». Я нашел пакет MITLM очень полезным для языковых моделей.

2. Эти ссылки непригодны для использования — они ссылаются на сервер, который требует входа в систему. Пожалуйста, замените их ссылками на общедоступную документацию (при условии, что это то, на что вы хотели сослаться), если вы хотите, чтобы ваш ответ был полезным.

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

проблемы с привязкой порта nginx

Страница WordPress извлекает старые данные

Извлечение переменной Jquery с помощью bash CGI