#python #r #statistics
#python #r #Статистика
Вопрос:
У меня есть данные о пропускной способности, которые определяют использование протокола по тоннажу и часам. Основываясь на протоколах, вы можете определить, когда что-то просто подключается или фактически используется (1000 бит по сравнению с миллионами или миллиардами бит) в этот час для этого конкретного протокола. Проблема в том, что при просмотре каждого протокола все они сильно искажены. Где 80% записей являются только что подключенными или тем, что я называю «шумом.
Моя задача — отделить этот шум и сосредоточиться только на том, когда протокол действительно используется. Все мои одноклассники просто делают это вручную и удаляют с низким порогом. Я надеялся, что есть способ автоматизировать это и использовать статистику вместо простого выбора порога, который «выглядит хорошо». У нас есть что-то вроде 30 различных протоколов, каждый с разным количеством битов, которые будут представлять «шум», т. Е. Прототип загрузки может иметь 1000 бит, тогда как приложение для обмена сообщениями может иметь 75 бит, когда они подключены, но не используются в полном объеме. Аналогично они будут иметь разные средства и промежутки между, т. е. среднее значение загрузки равно 215 000 000, а обмена сообщениями — 5 000 000. Между ними нет никакого установленного шаблона.
Также этот «шум» имеет много подключений, но составляет всего 1-3% от общей используемой пропускной способности, вот почему нам поручено определить фактическое использование и пассивное использование.
Мне не нужен какой-либо реальный код, поскольку я хотел бы попрактиковаться в реализации и создании решения самостоятельно. Но логика, процесс или название статистического метода были бы очень полезны.
Ответ №1:
Есть ли у вас помеченные примеры и есть ли у вас другие данные, помимо пропускной способности? Одним из способов сделать это было бы подготовить какой-нибудь классификатор ML, если у вас есть приличный объем данных, о которых вы знаете, что они либо используются, либо нет. Если у вас достаточно данных, вы также могли бы сделать это без присмотра. Для начала простой наивный байесовский классификатор хорошо работает для бинарных решений. Поскольку вы, возможно, отсутствуете, NB был первоначальной основой для обнаружения спама (является ли это спамом или нет). Итак, ваш случай, это шум или нет, также должен работать, но вы получите более надежные результаты, если у вас есть другие данные в дополнение к пропускной способности для обучения. Кроме того, мне интересно, нет ли способа улучшить заголовок вашего поста, чтобы он быстрее передавал ваш вопрос.