случайная выборка 1/3 генома .fasta

#fasta #genome #reformat

#fasta #геном #переформатировать

Вопрос:

У меня есть геном размером около 2 ГБ, состоящий из каркасов, я бы произвольно выбрал геном.

Я использовал reformat.sh но на выходе получился всего лишь эшафот. Мне нужна 1/3 всего генома…

 >LGKD01000001.1 Octopus bimaculoides isolate UCB-OBI-ISO-001 Scaffold4_contig_1, whole genome shotgun sequence
GAACAGCATGAATGTTAAAACtgaaatggatgatgatgatgatgatgatgatgatgatggcagcaacAGCCatgattatatttaatatgttgttagttataatcataataatgatgataatgttgataacaaTAATGGTTGCAATAATG
>KQ415657.1 Octopus bimaculoides isolate UCB-OBI-ISO-001 unplaced genomic scaffold Scaffold5, whole genome shotgun sequence
tatatatatatagtcaattcgagGATGTTAGATCGACAATGGGGATTATAGAATCCCACAAAAAATTCCACTGGT
>LGKD01000032.1 Octopus bimaculoides isolate UCB-OBI-ISO-001 Scaffold12_contig_1, whole genome shotgun sequence
GAAGTGGTAAAGAGTgcgatgcgctgaaaaaagagagaacagtacttgaaatGTGGTTTCATTCTagtagtaaat
>LGKD01000033.1 Octopus bimaculoides isolate UCB-OBI-ISO-001 Scaffold16_contig_1, whole genome shotgun sequence
ctgaTCAACAGAatagggccaatcattcttcatgacaatgctcgaccacacgttttaCTAATGA
>LGKD01000034.1 Octopus bimaculoides isolate UCB-OBI-ISO-001 Scaffold22_contig_1, whole genome shotgun sequence
TTATCTATATACGagaatattatctatatataaaggaataccaaaaaaacaagaacaacgggtcattcggaattttcttt
  

Есть скрипт, способный это сделать?

Комментарии:

1. Вы имеете в виду 1/3 каркасов или 1/3 последовательности?

2. Я бы получил файл с 1/3 от общего числа n. каркасов

3. Создать скрипт для этого не должно быть сложно. Прочитайте входной файл и для каждого каркаса бросьте кости, случайное число от 1 до 3. Если это 1, напишите каркас, если нет, продолжайте чтение до следующего.

4. Правильно ли я понимаю, что у вас есть файл объемом 2 ГБ с N последовательностями, и вы хотели бы выбрать 1/3 случайных последовательностей из этого файла? (снова выводится в стандартном файле fasta?)

5. да, это проблема