Как я могу извлечь последовательность ДНК с помощью Perl-скрипта из UCSC, если у меня есть их координаты?

#perl #bioinformatics

#perl #биоинформатика

Вопрос:

Как я могу извлечь последовательность ДНК с помощью Perl-скрипта из genome browser (UCSC), если у меня есть их координаты?

Комментарии:

1. biostar.stackexchange.com может быть, это лучшее место…

Ответ №1:

Вы можете передать запрос последовательности DAS в Perl-скрипт, который анализирует XML-элемент, содержащий последовательность.

Например, ниже приведен curl запрос DAS-сервера UCSC, выдающий стандартную ошибку, переданный по каналу на parseSeq.pl :

 $ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl
  

На выходе curl будет XML-документ, содержащий последовательность ДНК из 1000 оснований из hg19 сборки человеческого генома. В запросе запрашивается база от 10000 до 10999 (помните, что UCSC имеет значение 0) из первой хромосомы. XML будет включать в себя некоторые другие материалы, полезные для ведения журнала и проверки ошибок.

После передачи XML в Perl-скрипт вы можете использовать модуль Perl XML::Simple для быстрого анализа нужного материала.

Чтобы помочь вам начать, ваш parseSeq.pl файл может начинаться с:

 #!/usr/bin/perl -w                                                                                                                                                                                                                          

use strict;                                                                                                                                                                                                                                 
use XML::Simple;                                                                                                                                                                                                                            
use Data::Dumper;                                                                                                                                                                                                                           

my $xml = new XML::Simple;                                                                                                                                                                                                                  
my $ref = $xml->XMLin('-');                                                                                                                                                                                                                       

print Dumper $ref;
  

Вывод этого должен дать вам достаточное начало для извлечения последовательности ДНК из $ref .