#java #machine-learning #lingpipe
#java #машинное обучение #lingpipe
Вопрос:
Сейчас я просто обучаю DynamicLMClassifier набору данных и классифицирую свой текст по категориям. Как мне добавить функцию, чтобы классификатор придавал определенным словам больший вес, например, если это предложение содержит «профессиональный», оно, скорее всего, относится к категории A? Или как классифицировать на основе абзацев вместо ngrams?
Я заметил, что есть featureextractor, но, похоже, он не принимает аргументы.
Ответ №1:
Я бы сделал это в качестве комментария, но у меня пока нет такой привилегии.
DynamicLMClassifier is не допускает произвольных функций. Один из них — это наш классификатор LogisticRegression, но он более сложный в использовании. Хорошее место для начала — это учебник по адресу:
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
Ваш второй вопрос о том, как классифицировать на основе абзацев вместо ngrams, немного неясен. Использование целых абзацев в качестве одной функции, скорее всего, приведет к созданию очень разреженных данных.
Брек
Комментарии:
1. Ответы, которые ссылаются на внешние ресурсы, не очень хороши, потому что они прерываются, если ссылки прерываются… Если вы можете включить некоторую информацию в свой ответ, это было бы лучше. Если вы просто рекомендуете учебное пособие, то это, вероятно, лучше подходит в качестве комментария.