#r #data-mining #text-mining
#r #интеллектуальный анализ данных #интеллектуальный анализ текста
Вопрос:
Я собираюсь перенести нашу отечественную платформу различных алгоритмов машинного обучения с C # на более надежную платформу интеллектуального анализа данных, такую как R. Хотя очевидно, что R отлично подходит для многих типов задач интеллектуального анализа данных, мне неясно, можно ли его использовать для классификации текста.
В частности, мы извлекаем список биграмм из текста, а затем классифицируем его в одну из 15 различных категорий, например:
Список биграмм: ювелирные изделия, книги, часы, обувь, универмаг -> Категория: Покупки
Мы хотели бы как обучать модели в R, так и подключаться к базе данных для выполнения этого в большем масштабе.
Можно ли это сделать в R?
Комментарии:
1. Эта статья может вас заинтересовать. jstatsoft.org/v25/i05/paper
2. Можете ли вы уточнить свой вопрос? В названии упоминается общая методология, в то время как текст вопроса не особенно информативен о моделях, которые вы пытаетесь исследовать. Ответ — да, R можно использовать для классификации текста. Пожалуйста, дайте более подробную информацию о вашей цели.
3. Конечно. Существует много различных типов задач классификации, которые мы хотели бы решить, но простым примером одной из них может быть загрузка набора документов и отнесение их к одной из 15 различных категорий. В зависимости от выбранного алгоритма документ может быть предварительно обработан в различные формы, такие как: А) простой текстовый файл; Б) пакет униграмм; В) пакет биграмм и т.д. Представляется вероятным, что ГИС-подход к списку биграмм будет хорошо работать, но деревья классификации также кажутся многообещающим кандидатом.
Ответ №1:
Хм, я скорее начинаю изучать машинное обучение, но у меня может быть предложение: вы рассматривали Weka? Существует множество различных алгоритмов, и есть некоторая документация. Кроме того, существует пакет R RWeka
, который использует банки Weka.
Редактировать: Существует также хорошая, всеобъемлющая статья Виттена и др. : Интеллектуальный анализ данных, которая содержит подробное описание Weka среди других интересных вещей. Изучите возможности API.
Комментарии:
1. Мы не используем Java, но это может быть что-то, что следует учитывать, если R не работает.
2. Не нужно слишком увлекаться Java, чтобы попробовать RWeka. Просто установите.packages(«RWeka») и немного просмотрите виньетку.
3. Неплохо… Я этого не знал. Тогда я изучу это еще немного!