Тематическая доля различных переменных, отличных от документов

#r #topic-modeling

Вопрос:

Я запускаю stm в данных reddit. Я разделил сообщения reddit на разные ненавистнические высказывания, такие как антиазиатские, анти-черные и т. Д. я хочу рассчитать вероятность того, что данная ненавистническая речь является конкретной темой.

например, я хочу, чтобы результаты были такими: 30% темы 1 являются антиазиатскими, а 70% темы 1 — анти-черными, и это продолжается для всех имеющихся у меня тем.

Кроме того, я хочу, чтобы другая таблица с результатами, подобными антиазиатским, составляла 5% от всех тем, которые у меня есть, а 95% тем являются анти-черными.

 posts <- c("i dislike asian", "i dislike black")
anti-asian <- TRUE, FALSE
anti_black <- FAlSE, TRUE
 

Ответ №1:

Ожидаемая вероятность — это относительная распространенность этого двоичного вектора встречаемости, который можно рассчитать следующим образом:

 anti_asian <- c(TRUE, FALSE, TRUE)
table(anti_asian)[["TRUE"]]/length(anti_asian)
#> [1] 0.6666667
 

Создано 2021-11-12 пакетом reprex (v2.0.1)