сравнение строк / символов и побитовое сравнение в python

#python #string #comparison #neural-network #bit-manipulation

#python #строка #сравнение #нейронная сеть #манипулирование битами

Вопрос:

У меня есть большой набор данных нуклеотидных последовательностей (проще говоря, длинные строки), который преобразуется в матрицу 104 * 13440, полную символов. Мой проект заставляет меня выполнять вырожденное сопоставление строк при изучении всех возможных состояний / возможностей (т. Е. никакой причудливой эвристики и / или скрининга). Поскольку набор данных настолько велик, ручная проверка всех кортежей word посимвольно очень утомительна и сложна в вычислительном отношении.

Будет ли преобразование символов в соответствующий двоичный файл и реализация второстепенных нейронных сетей с использованием побитовых сравнений экономить время обработки и потребление памяти по сравнению с простым сравнением символов?

Я использую python 3.

Забыл упомянуть, что кортежи слов перекрываются, их размер варьируется от 15-25 символов на кортеж, так что вы можете видеть дилемму

Комментарии:

1. забыл упомянуть, что кортежи слов перекрываются, их размер варьируется от 15-25 символов на кортеж, так что вы можете видеть дилемму..

2. не делайте комментариев, объясняющих вопрос, отредактируйте вопрос.

Ответ №1:

Будет ли преобразование символов в соответствующий двоичный файл и реализация второстепенных нейронных сетей с использованием побитовых сравнений экономить время обработки и потребление памяти по сравнению с простым сравнением символов?

Нет. Внедрение чего-то столь сложного, как нейронная сеть, для решения задачи сравнения строк займет намного больше времени.

Если вы хотите ускорить свой код, я рекомендую опубликовать его на http://codereview.stackexchange.com, где люди там расскажут вам, что вы можете сделать, чтобы сделать это быстрее.

Комментарии:

1. @W.Ewert: отмечено. Что, если я пропустил нейронную сеть и просто использовал побитовые сравнения итеративно?

2. @SHKT, я не уверен на 100%, о чем ты думаешь, но сравнение символов происходит быстро, преобразование в двоичный файл и сравнение этого почти наверняка будет медленнее. Но если серьезно, лучший способ получить совет по ускорению кода — опубликовать его на codereview