Разница в том, сколько приемлемо для столбца, прежде чем мы сможем использовать переменную столбца для моделирования?

#python #machine-learning #statistics

#python #машинное обучение #Статистика

Вопрос:

Я пытаюсь создать модель классификации. Во время предварительной обработки данных. Я смотрю на разницу в каждом столбце. Это величина отклонения в каждом столбце. Я не понимаю, для каких всех столбцов я должен регистрировать преобразование перед моделированием. Какая разница приемлема? Не мог бы кто-нибудь, пожалуйста, пролить некоторый свет на это, пожалуйста.

 Temparature     2.318567e-01
HR              4.747868e 02
SpO2            1.179291e 01
SBP             6.263887e 02
MAP             2.905884e 02
RR              2.794205e 01
FiO2            9.061920e 00
PaO2            1.327011e 03
PaCO2           7.466527e 01
pH              4.851681e-03
A.a.gradient    0.000000e 00
HCO3            1.358290e 01
Hb              5.337076e 00
TLC             6.326940e 07
Platelets       1.062145e 10
K               3.332203e-01
Na              4.429681e 01
Serum.Cr        1.897277e 00
Blood.Urea      7.321509e 02
Bili            3.352918e 00
Urine.output    5.157271e 05
Lactate         3.795719e 00
INR             5.362644e-01
dtype: float64

  

Комментарии:

1. Разница сама по себе не очень полезна. Попробуйте сравнить стандартное отклонение со средним значением. Также посмотрите на график (гистограмму) данных в обычном масштабе и в логарифмическом масштабе, чтобы обнаружить функцию, которая выиграла бы от преобразования журнала

2. Не вопрос программирования , следовательно, возможно, здесь не по теме; лучше подходит для перекрестной проверки (если вы решите переместить его самостоятельно, пожалуйста, удалите этот, поскольку перекрестная публикация не разрешена ).

Ответ №1:

Я бы сказал, что просмотр только различий столбцов в основном полезен для удаления столбцов с отклонением 0.

Если ваш столбец имеет хотя бы минимальную дисперсию, вы не можете заключить, что столбец бесполезен без дальнейшего исследования.

Ответ №2:

Я бы сказал, что это зависит от того, какие значения у вас есть для данных. Не существует «приемлемого диапазона отклонения», если это не связано с контекстом.

В целях классификации лучше всего тренироваться на как можно большем количестве выборок, но вы хотите оставить некоторые для проверки, как предложил @desertnaut. нижняя строка: я бы взял верхние (скажем) 80% наиболее переменных столбцов и преобразовал их в журнал. Остальные 20% останутся для проверки.