Как вырезать строку из одного столбца большого набора данных?

#python #pandas #jupyter

#python #pandas #jupyter

Вопрос:

У меня большой набор данных с одним столбцом. Вот так

 zinc finger protein 185 OS=Homosapiens OX=9606 GN=ZNF PE=1 SV=3
podocin OS=Homosapiens OX=9606 GN=NPHS2 PE=1 SV=1
  

Я пытаюсь вырезать символы после GN=, используя Pandas в Jupyter notebook, в один столбец.
Нравится

 ZNF185
NPHS2
  

Спасибо

Комментарии:

1. Добро пожаловать в SO smad. Действительно сложно понять ваши данные. Вы можете переформатировать ее так, как должен отображаться столбец?

2. Добро пожаловать в SO! Можете ли вы показать, что вы пробовали? Образец набора данных также был бы полезен.

3. Не уверен "185" в первом примере, но что-то вроде df['column_name'].str.extract(r'GN=(.*?)s') maybe?

Ответ №1:

Я не уверен, что это то, что вы хотели, но вы можете получить отдельный набор данных, выполнив следующие действия :

 a = "OX=9606 GN=ZNF PE=1 SV=3 podocin OS=Homosapiens OX=9606 GN=NPHS2 PE=1 SV=1"
[gn_word for gn_word in a.split() if word.startswith('GN=')]