#r #logistic-regression
#r #логистическая регрессия
Вопрос:
Я пытаюсь выполнить анализ экстремальных границ с использованием упорядоченной логистической регрессии (вместо OLS) с помощью пакета ExtremeBounds R Марека Главача и polr
функции в массовой библиотеке.
У меня есть набор данных, состоящий из 3 зависимых переменных и 18 независимых переменных с 25 наблюдениями. Я пытаюсь определить, какая из 18 переменных надежно коррелирует с каждой зависимой переменной, реализуя все возможные комбинации регрессий. Итак, для приведенного ниже кода я хочу провести анализ экстремальных границ с происхождением (оценка торговли людьми для стран происхождения) в качестве моей зависимой переменной, ВВП на душу населения в качестве моей свободной переменной, а остальные переменные как сомнительные (не включая две другие зависимые переменные).
Вот подмножество моих данных:
head(data)
Country Transit Destination Origin GDP_Per_Capita_PPP
1 Argentina NA 3 2 14951.728
2 Belize 1 2 <NA> 7307.061
3 Brazil NA 1 4 11642.444
4 Canada 3 4 2 37995.005
5 Chile NA 1 1 15753.963
6 Colombia 1 NA 4 9035.566
Population Democracy Female_Unemployment Total._Unemployment
1 39289878 8 12.3408 10.0775
2 291329 NA 15.0900 9.3900
3 188167356 8 11.2955 8.6395
4 32571174 10 6.0925 6.3203
5 16354504 10 11.7560 9.0240
6 43200897 7 NA NA
Female_LF_PR Total_LF_PR Percent_Rural_Pop Gini
1 50.1041 61.7950 9.800 46.7
2 NA NA 54.704 NA
3 56.8993 67.7640 16.857 55.6
4 61.8830 67.0185 19.787 NA
5 41.3310 56.8750 13.158 47.3
6 NA NA 23.577 NA
Percent_phc_ratio Percent_Female_Literacy.rate
1 NA 98.51077
2 NA NA
3 NA 89.85559
4 NA NA
5 29.1 NA
6 NA 92.22060
Percent_total_Literacy_rate Percent_youth_Literacy_rate
1 98.61080 99.44608
2 NA NA
3 89.61523 97.58230
4 NA NA
5 NA NA
6 92.29968 97.88317
Fertility_rate Percent_Pop_0.14 Population_density
1 2.3970 27.06570 14.356715
2 2.9800 38.25984 12.771986
3 1.9250 26.82929 22.513066
4 1.5862 17.40098 3.581804
5 1.9010 24.11969 21.995695
6 2.1980 29.79432 38.937266
Percent_Employment_agri Trade_._of_GDP
1 1.051 40.43348
2 19.484 123.52556
3 15.618 26.04170
4 2.112 68.25132
5 12.849 73.09865
6 19.963 39.64136
И вот код, который я пытаюсь запустить:
library(MASS)
library(ExtremeBounds)
data$Origin <- ordered(as.factor(data$Origin))
data$GDP_Per_Capita_PPP = scale(data$GDP_Per_Capita_PPP)
data$Population = scale(data$Population)
doubtful_vars <- c("Population","Democracy","Female_Unemployment","Total._Unemployment","Female_LF_PR","Total_LF_PR","Percent_Rural_Pop","Gini","Percent_phc_ratio", "Percent_Female_Literacy.rate","Percent_total_Literacy_rate","Percent_youth_Literacy_rate","Fertility_rate","Percent_Pop_0.14","Population_density","Percent_Employment_agri","Trade_._of_GDP")
origin_eba <- eba(data = data, y = "Origin", free = "GDP_Per_Capita_PPP", doubtful = doubtful_vars, reg.fun = polr, na.action = na.omit, method = "logistic", Hess = TRUE)
Что приводит к этой ошибке:
Ошибка в optim(s0, fmin, gmin, method = «BFGS», …): начальное значение в ‘vmmin’ не является конечным, Кроме того: Предупреждающее сообщение: glm.fit: произошла подогнанная вероятность численно 0 или 1
Я не уверен, что это значит или как это решить. Я несколько новичок в R, поэтому, если кто-нибудь знает правильный способ проведения этого анализа, пожалуйста, дайте мне знать. Спасибо!