#python #numpy #statistics
#python #numpy #Статистика
Вопрос:
Я пытаюсь предварительно обработать свои данные, полученные из данных химической реакции, чтобы поместить их в простую нейронную сеть прямой связи, используя Numpy и Python.
Каждый вывод (желтый) присваивается 2-му массиву входных данных, где каждая строка каждого массива представляет собой 1-минутную последовательную выборку. Каждый вывод выбирается каждые 3 минуты, а входные данные назначаются каждые 1 минуту.
Однако я не хочу использовать двумерный входной массив в своей нейронной сети, так как уверен, что буду перегружен из-за небольшого объема имеющихся у меня данных.
Теоретически, в моем химическом эксперименте каждый выходной сигнал должен быть присвоен только одному одномерному вектору входных данных. Итак, я показываю здесь, какие могут быть возможные векторы-кандидаты, которые должны быть связаны с моим выводом.
Мой вопрос: поскольку я не знаю, какой вектор-кандидат я должен выбрать (синий, зеленый, красный), чтобы связать его с выводом (желтый), как я могу найти такую связь с помощью Numpy? Есть ли алгоритм, который может дать мне знать, что, например, красная комбинация лучше всего ассоциируется с моим выводом?
PS: Выходные данные здесь равны, чтобы показать, что все выходные данные с одинаковым значением должны каким-то образом иметь входные данные с очень сильной корреляцией, но здесь я сделал это быстро ради примера.
РЕДАКТИРОВАТЬ: должен ли я найти корреляцию между каждым цветным вектором и выбрать самую сильную корреляцию?
Комментарии:
1. На мой взгляд, было бы гораздо разумнее использовать все имеющиеся у вас данные и контролировать переобучение с помощью регулирования. Такая предварительная обработка в некотором роде сводит на нет цель использования NN вообще (если это какая-то линейная предварительная обработка, вы теряете много информации; если она нелинейная, это несколько сложнее, чем делать то же самое внутри NN).
2. @sascha итак, вы предполагаете, что лучше использовать эти векторы, которые у меня есть, в каком-то повторяющемся NNS, что лучше, чем манипулировать данными и правильно их терять?