Поиск корреляций между данными в фрейме данных (включая двоичный)

Вопрос:

У меня есть набор данных с именем dolls.csv, который я импортировал с помощью

 dolls <- read.csv("dolls.csv")

Это фрагмент данных

 Name  Review Year Strong Skinny Weak Fat Normal
Bell  3.5    1990   1      1      0    0    0
Jan   7.2    1997   0      0      1    0    1
Tweet 7.6    1987   1      1      0    0    0
Sall  9.5    2005   0      0      0    1    0

Я пытаюсь выполнить некоторый предварительный анализ этих данных. Имя — это имя куклы, обзор — это рейтинг 1-10, год — год, и все значения после этого являются двоичными, где они равны 1, если они обладают характеристикой, или 0, если они этого не делают.

Я побежал

 summary(dolls)

и получите заголовок, средние, минимальные и максимальные значения значений.

Я пытаюсь, возможно, увидеть, каковы корреляции между характеристиками и рейтингом года или обзора, чтобы увидеть, есть ли какая-то корреляция (например, чтобы узнать, действительно ли у некоторых кукол действительно высокие рейтинги, но есть неблагоприятные черты), не уверен, как строить диаграммы или какие функции использовать в этом случае? Я рассматривал возможность некоторого тестирования хвоста ANOVA на выбросы и средние значения разных значений, но не уверен, как сравнивать подобные значения (в python я бы выполнил оператор if-then, но я не знаю, как в R).

Это для личного исследования, которое я хотел провести и улучшить свои навыки R.

Спасибо!

1. Среднее значение двоичной переменной показывает долю наблюдений с этой характеристикой. Чтобы увидеть взаимосвязь между каждой характеристикой и годом, вы можете сгруппировать по годам и вычислить долю кукол с каждой характеристикой, таким образом, вы увидите, есть ли тенденция.

2. Привет @Janus, переполнение стека обычно предназначено для более конкретных вопросов, связанных с программированием. Тем не менее, несколькими хорошими ресурсами для этой цели были бы R для Data Science или ресурсы из datacarpentry.org . В вашем коде summary возвращает mean значение, поскольку оно имеет числовой тип.

3. Я понял это, поэтому я удалил его, я думаю, что глупо делать другую сводную статистику, вторая часть моего вопроса остается. Также спасибо за ссылку @zack

4. Поместите воспроизводимую часть ваших данных для выполнения примеров som. используйте dput функцию из tidyverse пакета.

5. @JohanRosa dput на самом деле из базы R. Для его использования нет необходимости в каких-либо пакетах

Вопрос:

Комментарии:

Вам также может понравиться

Сортировка слиянием и линейная сортировка: доказательство временной сложности с помощью Python

автоматически усекаемая часть времени из объекта datetime json

Masstransit: Как переиздать или отправить отрицательное подтверждение?