Пакет R biomaRt: получение всех значений в связанных базах данных

#r #biomart

#r #биомарт

Вопрос:

Вопрос биоинформатического программирования. В R у меня есть классическое преобразование символа гена speciesA в speciesB, в этом примере от мыши к человеку, которое я выполняю с помощью biomaRt, и, в частности, функции getLDS.

 x<-c("Lbp","Ndufv3","Ggt1")
require(biomaRt)
convert<-function(x){
        human=useMart("ensembl",dataset="hsapiens_gene_ensembl")
        mouse=useMart("ensembl",dataset="mmusculus_gene_ensembl")

    newgenes=getLDS(
        attributes="mgi_symbol",
        filters="mgi_symbol",
        values=x,
        mart=mouse,
        attributesL="hgnc_symbol",
        martL=human,
        uniqueRows=TRUE
    )
    humanx<-unique(newgenes)
    return(humanx)
}
conversion<-convert(x)
 

Однако я хотел бы получить ВСЕ идентификаторы, присутствующие в связанной базе данных: другими словами, все пары мышь / человек (в этом примере). Что-то, что может сообщить значение параметра в функции getLDS для извлечения всех идентификаторов, а не только тех, которые указаны в переменной x. Я говорю о полной карте длиной в десятки тысяч строк, определяющей все ортологичные отношения между символами двух баз данных.

Есть идеи или обходные пути? Большое спасибо!

Ответ №1:

Я полагаю, что обходным путем может быть извлечение всех идентификаторов из самой базы данных Biomart, здесь: https://www.ensembl.org/biomart/martview /

  • Нажмите «Выбрать базу данных» -> Ensembl Genes
  • Выберите набор данных -> выбранный вами вид (например, гены мыши)
  • Нажмите на Результаты -> Отметьте «Только уникальные результаты» -> Перейти
  • Прибыль

Полученный здесь список в настоящее время содержит 53605 идентификаторов, что, я полагаю, вам нужно.

Наслаждайтесь!

Комментарии:

1. Это решение, отличное от R, но я им воспользуюсь. Спасибо!!