Корреляция в тексте с использованием R

#r #text #correlation

#r #текст #корреляция

Вопрос:

Мои данные выглядят как (пример)

 ID     Col1     Col2
1232   ABCSD    abd
2342   ABCSD    esw
7643   ABCSD    rty
9821   ETHS     fvc
  

У меня есть 2845428 такие строки. Я хочу выяснить, насколько коррелирована каждая пара в Col1 и Col2 . Например

 ABCSD     abd     0.64
ETHS      fvc     0.23
  

Как я могу сделать это с помощью R? Спасибо

Комментарии:

1. Ваш желаемый результат не имеет никакого смысла по отношению к вашим данным примера. Как вы получили значения 0.64 и 0.23 из ваших выборочных данных?

Ответ №1:

Я предполагаю, что под корреляцией вы подразумеваете что-то вроде «какая часть наблюдений ABCSD имеет abd в Col2 …»

Если ваши данные находятся во фрейме данных с именем df,

 #get the absolute frequency
freqs <- ftable(df[,2:3])  

#convert to relative frequency
freqs <- freqs/rowSums(freqs)

#then to get the format you want
library(reshape)
freqs <- melt(freqs)