Пакет для обобщения данных в моем фрейме данных R

#r #dataframe #dplyr

#r #фрейм данных #dplyr

Вопрос:

У меня есть огромный набор данных, содержащий информацию о 1774 округах в США. В качестве переменных используются такие вещи, как квартиль дохода, предпочтения избирателей, средний доход домохозяйства и т. Д.

Я хотел бы знать, существует ли пакет, который позволил бы мне быстро увидеть, например, количество округов, которые имеют доход выше определенного числа и проголосовали за республиканцев, или количество округов, где более 50% работают в сфере услуг, в то время как средний уровень образования составляет HS или ниже.

Я знаю, что могу сделать это с помощью функций dplyr, однако это отнимает очень много времени, когда я хочу сделать это с большим количеством переменных.

Спасибо за любые рекомендации!

Ответ №1:

Я рекомендую вам попробовать пакет explore.

Хотя вы можете использовать его вручную для изучения определенных частей вашего набора данных, он имеет дополнительные функции для интерактивного изучения данных с помощью shiny ( explore_shiny ) и для создания отчета по всему вашему набору данных с помощью rmarkdown ( report ).

Изучение пар переменных (например, дохода по партиям, за которые проголосовали) возможно путем указания одной переменной в качестве target и выбора второй переменной. Но это не всегда даст вам необходимое сравнение. Поэтому я бы рекомендовал пакет explore в качестве начальной отправной точки для понимания ваших данных, но для конкретного анализа вам, вероятно, потребуется написать свой собственный код dplyr, ggplot и / или plotly (или любой другой пакет, который вы предпочитаете).

Дополнительные проработанные примеры можно найти в его виньетке.