#r #topic-modeling
Вопрос:
Я запускаю stm в данных reddit. Я разделил сообщения reddit на разные ненавистнические высказывания, такие как антиазиатские, анти-черные и т. Д. я хочу рассчитать вероятность того, что данная ненавистническая речь является конкретной темой.
например, я хочу, чтобы результаты были такими: 30% темы 1 являются антиазиатскими, а 70% темы 1 — анти-черными, и это продолжается для всех имеющихся у меня тем.
Кроме того, я хочу, чтобы другая таблица с результатами, подобными антиазиатским, составляла 5% от всех тем, которые у меня есть, а 95% тем являются анти-черными.
posts <- c("i dislike asian", "i dislike black")
anti-asian <- TRUE, FALSE
anti_black <- FAlSE, TRUE
Ответ №1:
Ожидаемая вероятность — это относительная распространенность этого двоичного вектора встречаемости, который можно рассчитать следующим образом:
anti_asian <- c(TRUE, FALSE, TRUE)
table(anti_asian)[["TRUE"]]/length(anti_asian)
#> [1] 0.6666667
Создано 2021-11-12 пакетом reprex (v2.0.1)