Могу ли я выполнить обобщенное итеративное масштабирование в R?

#r #data-mining #text-mining

#r #интеллектуальный анализ данных #интеллектуальный анализ текста

Вопрос:

Я собираюсь перенести нашу отечественную платформу различных алгоритмов машинного обучения с C # на более надежную платформу интеллектуального анализа данных, такую как R. Хотя очевидно, что R отлично подходит для многих типов задач интеллектуального анализа данных, мне неясно, можно ли его использовать для классификации текста.

В частности, мы извлекаем список биграмм из текста, а затем классифицируем его в одну из 15 различных категорий, например:

Список биграмм: ювелирные изделия, книги, часы, обувь, универмаг -> Категория: Покупки

Мы хотели бы как обучать модели в R, так и подключаться к базе данных для выполнения этого в большем масштабе.

Можно ли это сделать в R?

Комментарии:

1. Эта статья может вас заинтересовать. jstatsoft.org/v25/i05/paper

2. Можете ли вы уточнить свой вопрос? В названии упоминается общая методология, в то время как текст вопроса не особенно информативен о моделях, которые вы пытаетесь исследовать. Ответ — да, R можно использовать для классификации текста. Пожалуйста, дайте более подробную информацию о вашей цели.

3. Конечно. Существует много различных типов задач классификации, которые мы хотели бы решить, но простым примером одной из них может быть загрузка набора документов и отнесение их к одной из 15 различных категорий. В зависимости от выбранного алгоритма документ может быть предварительно обработан в различные формы, такие как: А) простой текстовый файл; Б) пакет униграмм; В) пакет биграмм и т.д. Представляется вероятным, что ГИС-подход к списку биграмм будет хорошо работать, но деревья классификации также кажутся многообещающим кандидатом.

Ответ №1:

Хм, я скорее начинаю изучать машинное обучение, но у меня может быть предложение: вы рассматривали Weka? Существует множество различных алгоритмов, и есть некоторая документация. Кроме того, существует пакет R RWeka , который использует банки Weka.

Редактировать: Существует также хорошая, всеобъемлющая статья Виттена и др. : Интеллектуальный анализ данных, которая содержит подробное описание Weka среди других интересных вещей. Изучите возможности API.

Комментарии:

1. Мы не используем Java, но это может быть что-то, что следует учитывать, если R не работает.

2. Не нужно слишком увлекаться Java, чтобы попробовать RWeka. Просто установите.packages(«RWeka») и немного просмотрите виньетку.

3. Неплохо… Я этого не знал. Тогда я изучу это еще немного!