#deep-learning #bioinformatics
#глубокое обучение #биоинформатика
Вопрос:
Чтобы выполнить анализ последовательности белка с использованием глубокого обучения, последовательности должны быть закодированы в числовом представлении.
Учитывая способность моделей глубокого обучения автоматически извлекать признаки, также использовались различные небиологические схемы кодирования, например, информация о составе аминокислот, частоты аминокислот в последовательности и одно горячее кодирование.
Я хочу знать, что двоичное представление может использоваться для кодирования последовательностей белка. Например, [0,0,0,0,1] и [0,0,0,1,0] являются представлениями двух аминокислот.
Для кодирования 21 уникальной аминокислоты требуется минимум пять двоичных цифр.
Комментарии:
1. Я не совсем понимаю, о чем вы спрашиваете, но если вы спрашиваете, работает ли однократное кодирование, ответ — да. Если вы хотите узнать больше о других схемах кодирования с использованием пакета кодировщиков категорий python, я написал руководство здесь: towardsdatascience.com /…