#r #text #correlation
#r #текст #корреляция
Вопрос:
Мои данные выглядят как (пример)
ID Col1 Col2
1232 ABCSD abd
2342 ABCSD esw
7643 ABCSD rty
9821 ETHS fvc
У меня есть 2845428
такие строки. Я хочу выяснить, насколько коррелирована каждая пара в Col1
и Col2
. Например
ABCSD abd 0.64
ETHS fvc 0.23
Как я могу сделать это с помощью R? Спасибо
Комментарии:
1. Ваш желаемый результат не имеет никакого смысла по отношению к вашим данным примера. Как вы получили значения 0.64 и 0.23 из ваших выборочных данных?
Ответ №1:
Я предполагаю, что под корреляцией вы подразумеваете что-то вроде «какая часть наблюдений ABCSD имеет abd в Col2 …»
Если ваши данные находятся во фрейме данных с именем df,
#get the absolute frequency
freqs <- ftable(df[,2:3])
#convert to relative frequency
freqs <- freqs/rowSums(freqs)
#then to get the format you want
library(reshape)
freqs <- melt(freqs)