#perl #bioinformatics
#perl #биоинформатика
Вопрос:
Как я могу извлечь последовательность ДНК с помощью Perl-скрипта из genome browser (UCSC), если у меня есть их координаты?
Комментарии:
1. biostar.stackexchange.com может быть, это лучшее место…
Ответ №1:
Вы можете передать запрос последовательности DAS в Perl-скрипт, который анализирует XML-элемент, содержащий последовательность.
Например, ниже приведен curl
запрос DAS-сервера UCSC, выдающий стандартную ошибку, переданный по каналу на parseSeq.pl
:
$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl
На выходе curl
будет XML-документ, содержащий последовательность ДНК из 1000 оснований из hg19
сборки человеческого генома. В запросе запрашивается база от 10000 до 10999 (помните, что UCSC имеет значение 0) из первой хромосомы. XML будет включать в себя некоторые другие материалы, полезные для ведения журнала и проверки ошибок.
После передачи XML в Perl-скрипт вы можете использовать модуль Perl XML::Simple для быстрого анализа нужного материала.
Чтобы помочь вам начать, ваш parseSeq.pl
файл может начинаться с:
#!/usr/bin/perl -w
use strict;
use XML::Simple;
use Data::Dumper;
my $xml = new XML::Simple;
my $ref = $xml->XMLin('-');
print Dumper $ref;
Вывод этого должен дать вам достаточное начало для извлечения последовательности ДНК из $ref
.