#r
Вопрос:
У меня есть набор данных из 4 аминокислотных последовательностей, которые я объединил в один числовой набор данных с 4 метками. Я использовал этот набор данных в качестве обучающего набора для задачи классификации. У меня есть еще один отдельный набор данных неизвестных последовательностей, который я хочу классифицировать в соответствии с 4 метками в объединенном наборе данных.
На этом этапе я извлек и выбрал свои функции из обучающего набора, который теперь состоит из 7 столбцов; 1-й столбец-метки (коэффициент), а остальные 6 являются числовыми. Я использовал случайный лес для обучения своей модели, но я застрял на том, как ввести свой отдельный набор данных только с 6 функциями и без меток, чтобы предсказать, в какую категорию они попадают, используя пакет mlr
в R.
Как я могу это сделать?
Seq_cytolt;- protr::readFASTA(file = "Seq_cytosol.fa") Cytosol sequences extra_cytolt;- protr::readFASTA(file = "Seq_extra.fa") extracellular Sequences Seq_mitochondrialt;- protr::readFASTA(file = "Seq_mitochondria.fa") mitochondria sequences Seq_nuclueslt;- protr::readFASTA(file = "Seq_nuclues.fa") Nuclues sequences Seq_Unknowlt;- protr::readFASTA(file = "Seq_Unkown.fa") Unknown Sequences # To be classified
Я рассчитал молекулярные дескрипторы каждой последовательности (цитозольная, внеклеточная, митохондрия, ядро и Неизвестная), затем объединил все, кроме Неизвестной, как показано ниже. Затем использовал подготовленный комбинированный набор данных дескрипторов для обучения модели. Как мне теперь ввести мой неизвестный набор данных, который не имеет меток, в качестве тестового набора
extra_cyto_Features_Selectedlt;- suppressWarnings(data.frame(cbind(protr::extractAPAAC(extra_cyto),# Amphilic Pseudo Amino acid Composition protr::extractCTDD(extra_cyto), # Amino acid Distribution protr::extractCTDT(extra_cyto), # Amino acid Transition protr::extractCTDC(extra_cyto), # 3 Group classification of amino acid polarity, solvent accessibily etc. protr::extractAAC(extra_cyto), # Amino acid composition protr::extractCTriad(extra_cyto)# Protein-protein interaction ie dipole and volumes of their side chains ))); extra_cyto_Features_Selected # Sequence order coupling No.`
combined_Seq_Preparedlt;- rbind.data.frame(Seq_cyto_prepared, extra_cyto_prepared, Seq_mitochondria_prepared, Seq_nuclues_prepared)
Я был бы очень признателен вам за помощь. Спасибо.