Как сопоставить категории LIWC с личностными чертами (например, big5) с помощью коэффициентов корреляции?

#nlp #statistics

Вопрос:

Я работаю над проектом и создаю программу языкового анализа, такую как LIWC, и я хочу сопоставить примерно 70 категорий (например, Негативные эмоции, Сексуальность, Работа, Сон и т.д.) С личностными чертами большой пятерки. Оценки для каждой категории в LIWC рассчитываются путем деления числа вхождений всех слов в этой категории на общее количество слов в тексте, но мне нужен соответствующий порог или шкала, чтобы определить, когда вхождение в категорию слов имеет значение для одной из черт личности. Я нашел матрицы коэффициентов корреляции один на один (rho Спирмена) между категориями LIWC и большой пятеркой. Есть ли какая-то статистика/классификатор, который я могу запустить, используя эти корреляции, чтобы установить пороговое значение?

Комментарии:

1. На самом деле нет, все это довольно субъективно, поэтому вы в основном должны принять решение о том, каким должен быть порог для себя. Как специалист по компьютерной лингвистике, соответствие между встречаемостью слов и психологическими категориями в любом случае кажется мне довольно тонким.