#r #dataframe #dplyr
#r #фрейм данных #dplyr
Вопрос:
У меня есть огромный набор данных, содержащий информацию о 1774 округах в США. В качестве переменных используются такие вещи, как квартиль дохода, предпочтения избирателей, средний доход домохозяйства и т. Д.
Я хотел бы знать, существует ли пакет, который позволил бы мне быстро увидеть, например, количество округов, которые имеют доход выше определенного числа и проголосовали за республиканцев, или количество округов, где более 50% работают в сфере услуг, в то время как средний уровень образования составляет HS или ниже.
Я знаю, что могу сделать это с помощью функций dplyr, однако это отнимает очень много времени, когда я хочу сделать это с большим количеством переменных.
Спасибо за любые рекомендации!
Ответ №1:
Я рекомендую вам попробовать пакет explore.
Хотя вы можете использовать его вручную для изучения определенных частей вашего набора данных, он имеет дополнительные функции для интерактивного изучения данных с помощью shiny ( explore_shiny
) и для создания отчета по всему вашему набору данных с помощью rmarkdown ( report
).
Изучение пар переменных (например, дохода по партиям, за которые проголосовали) возможно путем указания одной переменной в качестве target
и выбора второй переменной. Но это не всегда даст вам необходимое сравнение. Поэтому я бы рекомендовал пакет explore в качестве начальной отправной точки для понимания ваших данных, но для конкретного анализа вам, вероятно, потребуется написать свой собственный код dplyr, ggplot и / или plotly (или любой другой пакет, который вы предпочитаете).
Дополнительные проработанные примеры можно найти в его виньетке.