#r #classification #data-mining
#r #классификация #интеллектуальный анализ данных
Вопрос:
У меня есть вопрос о процедуре полунеконтролируемой классификации с помощью пакета R ‘upclass’.
Конечная цель этой процедуры — пометить все точки данных, которыми я владею, и в настоящее время помечена только небольшая часть моих данных, а остальные точки данных не помечены. Итак, мой план состоит в том, чтобы пометить все точки данных, используя метод полунеконтролируемой классификации.
Что я знаю о полунеконтролируемой классификации, так это то, что мне сначала нужно сделать, это назначить, скажем, 60% помеченных точек данных для обучающих данных и 40% помеченных точек данных для тестовых данных. Кроме того, насколько я знаю, мне нужно включить все немаркированные точки данных в набор обучающих данных. Затем я могу оценить производительность модели с помощью набора тестовых данных, который состоит только из помеченного набора данных.
Мой вопрос в том, какой именно должна быть процедура классификации. Я читал документацию о пакете ‘upclass’ (https://cran.r-project.org/web/packages/upclass/upclass.pdf и ftp://140.247.115.226/yum-rep/CRAN/web/packages/upclass/vignettes/upclass.pdf ) и не совсем понимают, какая команда или какая процедура предназначена для обучения модели, а какая процедура предназначена для тестирования модели.
В первом документе (https://cran.r-project.org/web/packages/upclass/upclass.pdf ), основываясь на описании команды, похоже, что команда ‘upclassifymodel’ на стр. 15-16 используется для полууправляемой классификации. При использовании страницы 16 ‘cltest = null’, что, я думаю, означает, что для данных ‘Xtest’ недоступны метки. (Из аргументов на странице 8 ‘Xtest’ — это немаркированные данные).
(Код ‘upclassifymodel’ выглядит следующим образом:):
upclassifymodel(Xtrain, cltrain, Xtest, cltest = NULL,modelName = "EEE",
tol = 10^-5, iterlim = 1000, Aitken = TRUE, ...)
Я очень смущен этой частью, потому что тогда «указывает ли команда с помощью «upclassifymodel» только «этап обучения» или «этап обучения и тестирования» оба? Я очень смущен, поскольку, насколько я знаю, в процедуре полунеконтролируемой классификации немеченый набор данных включается в этап обучения, а на этапе тестирования мы используем только помеченный набор данных. Впоследствии, если команда с ‘upclassifymodel’ предназначена только для обучающей модели, то должны ли мы отдельно проводить этап тестирования с использованием других процессов проверки?
В общем, мой вопрос заключается в том, подходит ли, на мой взгляд, полунеконтролируемая процедура классификации (во-первых, назначьте 60% помеченных данных и все немаркированные данные для обучающих данных и 40% помеченных данных для тестовых данных, во-вторых, обучите модель как с помеченным, так и с немаркированным набором данных, а в-третьих, протестируйтемодель с 40% оставшихся помеченных данных.) и какие команды R с пакетом ‘upclass’ соответствуют процедуре. В идеале, я надеюсь, что кто-нибудь сможет поместить весь код для всех процедур полунеконтролируемой классификации, используя пакет R ‘upclass’.
Я с нетерпением жду ваших мыслей.
Комментарии:
1. Это выглядит более подходящим либо для статистики, либо для (бета-версии) форумов data science. На самом деле вы не задаете конкретный вопрос о кодировании, а скорее просите либо о помощи в разработке алгоритма, либо о обучении (неясному) пакету. Вы можете пометить его и попросить модератора перенести его на выбранный вами форум. Я голосую за закрытие SO, и я предсказываю, что 3 других согласятся со мной, чтобы это произошло, если миграция не произойдет в ближайшее время.