#python #google-colaboratory #bioinformatics #rdkit #cheminformatics
Вопрос:
В настоящее время я работаю с данными о пептидах и пытаюсь извлечь отпечаток пары атомов из набора данных пептидов, который будет использоваться в классификаторе машинного обучения.
Я поместил свои пептидные последовательности в список (со всеми из них, преобразованными в строки СМАЙЛОВ), и теперь повторяю список, чтобы создать отпечаток пальца для каждого пептида. Но я понятия не имею, что происходит не так. Примечание: Я использую Google Colab, чтобы завершить это.
Вот мой код:
pos = "/content/drive/MyDrive/pepfun/Training_format_pos (1).txt" # pos sequences extract into list f = open(pos, 'r') file_contents = f.read() data = file_contents f.close() newdatapos = data.splitlines() print(newdatapos) !pip install rdkit-pypi import rdkit from rdkit import Chem # fingerprints for pos sequences from rdkit.Chem.AtomPairs import Pairs fingerprintpos = [] for item in newdatapos: converteditem = rdkit.Chem.MolToSmiles(Chem.MolFromFASTA(item)) atompos = Pairs.GetAtomPairFingerprint(converteditem) fingerprintpos.append(atompos) print(fingerprintpos)
Мы будем очень признательны за любые советы. Спасибо!
Ответ №1:
Отпечатки пальцев рассчитываются по объектам mol, а не по УЛЫБКАМ. converteditem = Chem.MolFromFASTA(item)
должно сработать.