#java #nlp #classification #document-classification
#java #nlp #классификация #классификация документов
Вопрос:
Я пытался заставить языковую модель уровня word работать на lingpipe. Все примеры и учебные пособия, с которыми я столкнулся, показывают модель символьной граммы. Как я могу использовать lingpipe для обучения модели уровня word, а затем использовать эту модель для тестирования ее в других документах?
Кроме того, я заметил, что TokenizedLM не является сериализуемым. Нет ли способа сохранить его и загрузить позже без необходимости каждый раз проходить повторное обучение?
Наконец, существуют ли какие-либо другие фреймворки / инструменты, которые позволят мне сделать это без какого-либо кодирования с моей стороны?
Ответ №1:
Я не знаю о Java, но если вы не привязаны к этому языку программирования, есть Python NLTK, в котором есть токенизаторы и ngram-модели и много другого. Существует также книга, которую можно использовать как введение и для получения общего обзора.
Комментарии:
1. Я знаю о NLTK, и я также никоим образом не привязан к Java. Это одна из тех проблем, «потому что она есть». Я нашел пакет MITLM очень полезным для языковых моделей.
2. Эти ссылки непригодны для использования — они ссылаются на сервер, который требует входа в систему. Пожалуйста, замените их ссылками на общедоступную документацию (при условии, что это то, на что вы хотели сослаться), если вы хотите, чтобы ваш ответ был полезным.