#algorithm #time-series #classification #data-cleaning
#алгоритм #временные ряды #классификация #очистка данных
Вопрос:
Я пытаюсь создать набор зависимых переменных для моей модели классификации, где 0 равно False, а 90 — True (красным цветом), когда фиолетовая линия находится выше и ниже определенных пределов, как показано на графике ниже. Тем не менее, я получаю короткие сегменты, которые мне трудно удалить. Есть ли алгоритм, который я могу использовать для удаления этих сегментов?
Ответ №1:
Не уверен на 100%, от чего вы пытаетесь избавиться, от дополнительного всплеска в конце или разрыва в середине. В любом случае, такого рода вещи чрезвычайно чувствительны к используемым вами данным. То, что работает для одного набора данных, может не работать для другого.
Чтобы удалить сегменты, у вас в основном есть варианты проверки длины сегмента. Т.Е. Длина сегмента должна быть не менее X
.
Что касается заполнения пробела, та же идея, но сравните соотношение длины первого сегмента, пробела и последнего сегмента. Т.Е.: Если общий размер сегмента больше, чем X%
размер разрыва, два сегмента фактически являются 1 сегментом.
На самом деле вы могли бы использовать приведенное выше для обработки удаления второго сегмента. Если один сегмент X%
больше, чем другой, и разрыв меньше, чем Y%
у меньшего / большего / объединенного сегмента, затем удалите меньший сегмент.