t_test рассматривает столбец слов, а не столбец чисел

#r

Вопрос:

Я работаю с Р.

Вот пример данных.

 structure(list(conditions = c("secondCondition", "firstCondition", "firstCondition", 
                       "secondCondition", "secondCondition", "firstCondition", "firstCondition", 
                       "secondCondition", "firstCondition", "firstCondition", "firstCondition", 
                       "secondCondition", "firstCondition", "firstCondition", "firstCondition", 
                       "secondCondition", "firstCondition", "firstCondition", "firstCondition", 
                       "firstCondition", "firstCondition", "firstCondition", "secondCondition", 
                       "firstCondition", "firstCondition", "firstCondition", "secondCondition", 
                       "firstCondition", "firstCondition", "firstCondition", "secondCondition", 
                       "firstCondition", "firstCondition", "firstCondition", "secondCondition", 
                       "firstCondition", "secondCondition", "firstCondition", "secondCondition", 
                       "firstCondition", "firstCondition", "firstCondition", "secondCondition", 
                       "secondCondition", "firstCondition", "firstCondition", "secondCondition", 
                       "firstCondition", "firstCondition", "firstCondition"), WordsProduced = c("parking", 
                                                                                            "ball", "mobile", "dad", "agressive", "triple", "face", 
                                                                                            "donate", "serve", "happy", "hello", "cry", "distinct", 
                                                                                            "tribe", "confuse", "island", "hawai", "color", "smile", 
                                                                                            "walk", "good", "beach", "affect", "skin", "place", 
                                                                                            "run", "vigilant", "eager", "mountain", "gay", "fear", 
                                                                                            "love", "hate", "star", "sun", "doge", "moon", 
                                                                                            "bitcoin", "plantair", "tesla", "final", "fresh", "friend", 
                                                                                            "solitude", "life", "sadness", "sky", "terror", "shy", 
                                                                                            "table"), MeanWordsProduced = c(0.110952380952381, 2.94285714285714, 
                                                                                                                     0.110952380952381, 2.94285714285714, 0.110952380952381, 2.94285714285714, 
                                                                                                                     0.110952380952381, 2.94285714285714, 2.94285714285714, 2.94285714285714, 
                                                                                                                     0.110952380952381, 2.94285714285714, 2.94285714285714, 2.94285714285714, 
                                                                                                                     0.110952380952381, 2.94285714285714, 2.94285714285714, 2.94285714285714, 
                                                                                                                     2.94285714285714, 2.94285714285714, 2.94285714285714, 2.94285714285714, 
                                                                                                                     2.94285714285714, 2.94285714285714, 2.94285714285714, 0.110952380952381, 
                                                                                                                     2.94285714285714, 2.94285714285714, 2.94285714285714, 0.110952380952381, 
                                                                                                                     2.94285714285714, 2.94285714285714, 2.94285714285714, 0.110952380952381, 
                                                                                                                     2.94285714285714, 2.94285714285714, 0.110952380952381, 0.110952380952381, 
                                                                                                                     2.94285714285714, 2.94285714285714, 2.94285714285714, 0.110952380952381, 
                                                                                                                     2.94285714285714, 0.110952380952381, 2.94285714285714, 0.110952380952381, 
                                                                                                                     2.94285714285714, 2.94285714285714, 2.94285714285714, 0.110952380952381
                                                                                            )), row.names = c(NA, -50L), class = c("tbl_df", "tbl", "data.frame"
                                                                                            ))
 

Очевидно, что слова, используемые для каждого условия, неверны, но это потому, что данные, с которыми я работаю, намного больше.

Итак, у меня проблема. Мне нужно сравнить две группы (первое условие и второе условие) с помощью t-теста. Я уже делал это с некоторыми другими значениями/столбцами, в столбцах которых есть числа. Но теперь мне нужно сравнить обе группы по количеству произносимых слов.

Оба условия содержат в общей сложности 300 подсказок, но общее количество произносимых слов различается в зависимости от условия. Например, в первом условии я мог бы получить в общей сложности 882 слова.

Общее количество повторений названия условия в столбце условие согласуется с общим количеством произнесенных слов, а не с общим количеством фактических сигналов.

Я не знаю, нужна ли вся эта дополнительная информация, но мой вопрос в том, как я могу вычислить значение t с помощью столбца слов, а не чисел.

Формула, которую я использую, такова…

   t_test(COLUMofInterest ~ conditions, mu = 0, alternative = "two.sided", conf.level = 0.95, var.equal = FALSE, paired = FALSE) %>% 
  add_significance() 
 

Любая помощь или предложение были бы замечательны. Спасибо