#r
#r
Вопрос:
У меня есть набор данных с именем dolls.csv, который я импортировал с помощью
dolls <- read.csv("dolls.csv")
Это фрагмент данных
Name Review Year Strong Skinny Weak Fat Normal
Bell 3.5 1990 1 1 0 0 0
Jan 7.2 1997 0 0 1 0 1
Tweet 7.6 1987 1 1 0 0 0
Sall 9.5 2005 0 0 0 1 0
Я пытаюсь выполнить некоторый предварительный анализ этих данных. Имя — это имя куклы, обзор — это рейтинг 1-10, год — год, и все значения после этого являются двоичными, где они равны 1, если они обладают характеристикой, или 0, если они этого не делают.
Я побежал
summary(dolls)
и получите заголовок, средние, минимальные и максимальные значения значений.
Я пытаюсь, возможно, увидеть, каковы корреляции между характеристиками и рейтингом года или обзора, чтобы увидеть, есть ли какая-то корреляция (например, чтобы узнать, действительно ли у некоторых кукол действительно высокие рейтинги, но есть неблагоприятные черты), не уверен, как строить диаграммы или какие функции использовать в этом случае? Я рассматривал возможность некоторого тестирования хвоста ANOVA на выбросы и средние значения разных значений, но не уверен, как сравнивать подобные значения (в python я бы выполнил оператор if-then, но я не знаю, как в R).
Это для личного исследования, которое я хотел провести и улучшить свои навыки R.
Спасибо!
Комментарии:
1. Среднее значение двоичной переменной показывает долю наблюдений с этой характеристикой. Чтобы увидеть взаимосвязь между каждой характеристикой и годом, вы можете сгруппировать по годам и вычислить долю кукол с каждой характеристикой, таким образом, вы увидите, есть ли тенденция.
2. Привет @Janus, переполнение стека обычно предназначено для более конкретных вопросов, связанных с программированием. Тем не менее, несколькими хорошими ресурсами для этой цели были бы R для Data Science или ресурсы из datacarpentry.org . В вашем коде
summary
возвращаетmean
значение, поскольку оно имеет числовой тип.3. Я понял это, поэтому я удалил его, я думаю, что глупо делать другую сводную статистику, вторая часть моего вопроса остается. Также спасибо за ссылку @zack
4. Поместите воспроизводимую часть ваших данных для выполнения примеров som. используйте
dput
функцию изtidyverse
пакета.5. @JohanRosa
dput
на самом деле из базы R. Для его использования нет необходимости в каких-либо пакетах