Инструмент для классификации текста

#data-mining #document-classification

#интеллектуальный анализ данных #документ-классификация

Вопрос:

Мне интересно узнать о классификации текста, поэтому я читаю теорию. Следующий шаг — делать материал, и поэтому я ищу разные инструменты. Некоторые ссылки указывают на WEKA, однако Mallet, похоже, лучше подходит для этой задачи, но никто не ссылается на этот инструмент. Есть ли какие-либо причины держаться подальше от Mallet, если вы хотите работать над «серьезным» проектом? Я смог быстро обучить некоторые классификаторы с помощью Mallet и протестировать их, тогда как с WEKA я столкнулся с проблемой «исчезновения» моих меток после использования фильтров для преобразования моих текстовых файлов в карты, названные с категорией текстов внутри них.

Ответ №1:

Это зависит от задачи, которую вы выполняете. Mallet также является широко используемым инструментом, и как у Weka, так и у Mallet есть свои плюсы и минусы. Для тривиальных задач оба варианта просты в использовании. Я обычно предпочитаю Weka для задач кластеризации и классификации.

Примечание: Пусть вас не вводит в заблуждение популярность Weka в сообщениях на форуме, это в первую очередь связано с тем, что он используется в течение более длительного периода времени, а Mallet является новым по сравнению с Weka.

Комментарии:

1. У меня есть корпус, содержащий примерно 150 000 терминов, и попытка провести обучение с помощью наивного байесовского классификатора на моем компьютере объемом 2 ГБ приводит к ошибке нехватки памяти при использовании Weka. При использовании Mallet все работает, и обучение выполняется на удивление быстро. Ни с помощью одного из инструментов не было выполнено явное уменьшение размерности. Таким образом, либо Mallet значительно более эффективен в своем представлении для этой задачи по сравнению с форматом файла Wekas arff, либо я что-то делаю неправильно. Однако я внимательно следую инструкциям Mallet и Weka.