Очистка коротких сегментов в наборе данных

#algorithm #time-series #classification #data-cleaning

#алгоритм #временные ряды #классификация #очистка данных

Вопрос:

Я пытаюсь создать набор зависимых переменных для моей модели классификации, где 0 равно False, а 90 — True (красным цветом), когда фиолетовая линия находится выше и ниже определенных пределов, как показано на графике ниже. Тем не менее, я получаю короткие сегменты, которые мне трудно удалить. Есть ли алгоритм, который я могу использовать для удаления этих сегментов?

введите описание изображения здесь

Ответ №1:

Не уверен на 100%, от чего вы пытаетесь избавиться, от дополнительного всплеска в конце или разрыва в середине. В любом случае, такого рода вещи чрезвычайно чувствительны к используемым вами данным. То, что работает для одного набора данных, может не работать для другого.

Чтобы удалить сегменты, у вас в основном есть варианты проверки длины сегмента. Т.Е. Длина сегмента должна быть не менее X .

Что касается заполнения пробела, та же идея, но сравните соотношение длины первого сегмента, пробела и последнего сегмента. Т.Е.: Если общий размер сегмента больше, чем X% размер разрыва, два сегмента фактически являются 1 сегментом.

На самом деле вы могли бы использовать приведенное выше для обработки удаления второго сегмента. Если один сегмент X% больше, чем другой, и разрыв меньше, чем Y% у меньшего / большего / объединенного сегмента, затем удалите меньший сегмент.