#python #pandas #jupyter
#python #pandas #jupyter
Вопрос:
У меня большой набор данных с одним столбцом. Вот так
zinc finger protein 185 OS=Homosapiens OX=9606 GN=ZNF PE=1 SV=3
podocin OS=Homosapiens OX=9606 GN=NPHS2 PE=1 SV=1
Я пытаюсь вырезать символы после GN=, используя Pandas в Jupyter notebook, в один столбец.
Нравится
ZNF185
NPHS2
Спасибо
Комментарии:
1. Добро пожаловать в SO smad. Действительно сложно понять ваши данные. Вы можете переформатировать ее так, как должен отображаться столбец?
2. Добро пожаловать в SO! Можете ли вы показать, что вы пробовали? Образец набора данных также был бы полезен.
3. Не уверен
"185"
в первом примере, но что-то вродеdf['column_name'].str.extract(r'GN=(.*?)s')
maybe?
Ответ №1:
Я не уверен, что это то, что вы хотели, но вы можете получить отдельный набор данных, выполнив следующие действия :
a = "OX=9606 GN=ZNF PE=1 SV=3 podocin OS=Homosapiens OX=9606 GN=NPHS2 PE=1 SV=1"
[gn_word for gn_word in a.split() if word.startswith('GN=')]