R группировка и подсчет лексики сходства

#r #grouping #counting #sqldf

#r #группировка #подсчет #sqldf

Вопрос:

у меня есть список слов, частота и лексика сходства, и я пытаюсь подсчитать и сгруппировать, но не уверен, как включить частоту в код. каждая из этих двух строк работает, за исключением того, что не учитывает столбец freq в добавлении, и я не уверен, как это сделать.

 ddply(summaryLex,~sentiment,summarise,frequency=length(unique(word)))

sqldf("SELECT sentiment, COUNT(sentiment) as totalsent from summaryLex GROUP BY sentiment")
summaryLex csv file][1]

  

Файл summaryLex:

[Файл summaryLex][2 ]https://drive.google.com/open?id=15KBebiqXsNnndOP2mzoaxnvx1nk8Z8vL

Комментарии:

1. что вы пытаетесь вычислить?

2. пытаюсь получить итоговые значения для каждого сходного слова. гнев 70, позитив 250 и т.д. тем не менее, я считаю слова, но не частоту.

3. вы используете dplyr или data.table или хотите сделать это в base R? Вероятно, нет причин использовать sqldf или ddply для этого

4. использование data.table. прикрепленная ссылка на файл.

Ответ №1:

если данные.таблица:
data[, sum(freq), by = sentiment]

если dplyr:

 data %>%
   group_by(sentiment) %>%
   summarise(sum = sum(freq))
  

Комментарии:

1. разобрался, спасибо, Юджин. агрегат (summaryLex $ freq, by=список (Sentiment=summaryLex $sentiment), FUN= сумма)