Как я могу классифицировать HTML-файлы?

#nlp #classification #opennlp

#HTML #nlp #классификация #jsoup

Вопрос:

Я пытаюсь классифицировать свои HTML-файлы на основе их содержимого. Используя JSoup, я извлек заголовок и часть описания HTML-файла. И затем, используя детектор предложений opennlp, я определил массив предложений.

Однако я не уверен, как действовать дальше. Я могу просто искать определенные ключевые слова в этих предложениях и выполнять классификацию, но опять же, такое ощущение, что я пишу простое if..else.. утверждение, не используя весь потенциал NLP.

Я хотел бы обучить свой код выполнять классификацию, но я не уверен, как этого можно достичь.