#r #biomart
#r #биомарт
Вопрос:
Вопрос биоинформатического программирования. В R у меня есть классическое преобразование символа гена speciesA в speciesB, в этом примере от мыши к человеку, которое я выполняю с помощью biomaRt, и, в частности, функции getLDS.
x<-c("Lbp","Ndufv3","Ggt1")
require(biomaRt)
convert<-function(x){
human=useMart("ensembl",dataset="hsapiens_gene_ensembl")
mouse=useMart("ensembl",dataset="mmusculus_gene_ensembl")
newgenes=getLDS(
attributes="mgi_symbol",
filters="mgi_symbol",
values=x,
mart=mouse,
attributesL="hgnc_symbol",
martL=human,
uniqueRows=TRUE
)
humanx<-unique(newgenes)
return(humanx)
}
conversion<-convert(x)
Однако я хотел бы получить ВСЕ идентификаторы, присутствующие в связанной базе данных: другими словами, все пары мышь / человек (в этом примере). Что-то, что может сообщить значение параметра в функции getLDS для извлечения всех идентификаторов, а не только тех, которые указаны в переменной x. Я говорю о полной карте длиной в десятки тысяч строк, определяющей все ортологичные отношения между символами двух баз данных.
Есть идеи или обходные пути? Большое спасибо!
Ответ №1:
Я полагаю, что обходным путем может быть извлечение всех идентификаторов из самой базы данных Biomart, здесь: https://www.ensembl.org/biomart/martview /
- Нажмите «Выбрать базу данных» -> Ensembl Genes
- Выберите набор данных -> выбранный вами вид (например, гены мыши)
- Нажмите на Результаты -> Отметьте «Только уникальные результаты» -> Перейти
- Прибыль
Полученный здесь список в настоящее время содержит 53605 идентификаторов, что, я полагаю, вам нужно.
Наслаждайтесь!
Комментарии:
1. Это решение, отличное от R, но я им воспользуюсь. Спасибо!!