#vcf-variant-call-format #chr #snpe
Вопрос:
Чтобы обновить идентификатор SNP моего файла сводной статистики, у меня есть несколько вопросов: Во-первых, я создал текстовый файл из файла сводной статистики со следующей информацией
1 1118275 vh_1_1108138 G A
1 1120431 vh_1_1110294 A G
1 1135242 rs9729550 C A
1 1140435 rs1815606 A C
1 1163804 rs7515488 A G
1 1165310 rs11260562 A G
1 1173611 rs6697886 A G
1 1186502 rs6603785 T A
1 1194804 rs11804831 G A
1 1218086 rs6603788 A G
Мне нужно обновить идентификатор rsID, чтобы он имел согласованный формат (как вы видите, у некоторых есть формат vh_..). Затем я загрузил dbsnp vcf и выбрал следующие столбцы
1 10019 rs775809821 TA T
1 10039 rs978760828 A C
1 10043 rs1008829651 T A
1 10051 rs1052373574 A G
1 10051 rs1326880612 A AC
1 10055 rs768019142 T TA
1 10055 rs892501864 T A
1 10063 rs1010989343 A C
1 10067 rs1489251879 T TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC
1 10077 rs1022805358 C G
Мне было интересно, как я мог объединить столбцы, чтобы обновить идентификатор rsID в первом текстовом файле? 2) Я заметил, что второй столбец имеет другой формат (положение хромосомы). Я не знаю, вызывает ли это проблему. Если да, то как я мог бы его тоже обновить. Я ценю любую помощь