Предсказание границ белкового домена

#deep-learning #bioinformatics

#глубокое обучение #биоинформатика

Вопрос:

Чтобы выполнить анализ последовательности белка с использованием глубокого обучения, последовательности должны быть закодированы в числовом представлении.

Учитывая способность моделей глубокого обучения автоматически извлекать признаки, также использовались различные небиологические схемы кодирования, например, информация о составе аминокислот, частоты аминокислот в последовательности и одно горячее кодирование.

Я хочу знать, что двоичное представление может использоваться для кодирования последовательностей белка. Например, [0,0,0,0,1] и [0,0,0,1,0] являются представлениями двух аминокислот.

Для кодирования 21 уникальной аминокислоты требуется минимум пять двоичных цифр.

Комментарии:

1. Я не совсем понимаю, о чем вы спрашиваете, но если вы спрашиваете, работает ли однократное кодирование, ответ — да. Если вы хотите узнать больше о других схемах кодирования с использованием пакета кодировщиков категорий python, я написал руководство здесь: towardsdatascience.com /…