#python #machine-learning #statistics
#python #машинное обучение #Статистика
Вопрос:
Я пытаюсь создать модель классификации. Во время предварительной обработки данных. Я смотрю на разницу в каждом столбце. Это величина отклонения в каждом столбце. Я не понимаю, для каких всех столбцов я должен регистрировать преобразование перед моделированием. Какая разница приемлема? Не мог бы кто-нибудь, пожалуйста, пролить некоторый свет на это, пожалуйста.
Temparature 2.318567e-01
HR 4.747868e 02
SpO2 1.179291e 01
SBP 6.263887e 02
MAP 2.905884e 02
RR 2.794205e 01
FiO2 9.061920e 00
PaO2 1.327011e 03
PaCO2 7.466527e 01
pH 4.851681e-03
A.a.gradient 0.000000e 00
HCO3 1.358290e 01
Hb 5.337076e 00
TLC 6.326940e 07
Platelets 1.062145e 10
K 3.332203e-01
Na 4.429681e 01
Serum.Cr 1.897277e 00
Blood.Urea 7.321509e 02
Bili 3.352918e 00
Urine.output 5.157271e 05
Lactate 3.795719e 00
INR 5.362644e-01
dtype: float64
Комментарии:
1. Разница сама по себе не очень полезна. Попробуйте сравнить стандартное отклонение со средним значением. Также посмотрите на график (гистограмму) данных в обычном масштабе и в логарифмическом масштабе, чтобы обнаружить функцию, которая выиграла бы от преобразования журнала
2. Не вопрос программирования , следовательно, возможно, здесь не по теме; лучше подходит для перекрестной проверки (если вы решите переместить его самостоятельно, пожалуйста, удалите этот, поскольку перекрестная публикация не разрешена ).
Ответ №1:
Я бы сказал, что просмотр только различий столбцов в основном полезен для удаления столбцов с отклонением 0.
Если ваш столбец имеет хотя бы минимальную дисперсию, вы не можете заключить, что столбец бесполезен без дальнейшего исследования.
Ответ №2:
Я бы сказал, что это зависит от того, какие значения у вас есть для данных. Не существует «приемлемого диапазона отклонения», если это не связано с контекстом.
В целях классификации лучше всего тренироваться на как можно большем количестве выборок, но вы хотите оставить некоторые для проверки, как предложил @desertnaut. нижняя строка: я бы взял верхние (скажем) 80% наиболее переменных столбцов и преобразовал их в журнал. Остальные 20% останутся для проверки.