#python #pandas #feature-extraction
#питон #панды #функция-извлечение
Вопрос:
Я использую DecisionTreeDiscretiser
для нормализации столбцов непрерывных значений. Набор данных, который я использую, слишком велик, чтобы включать его сюда, но он содержит набор положительных целых чисел. например, 1, 5, 80, 560, метки либо 1, либо 0. После дискретизации значений я заметил, что замененные дискретные значения после преобразования являются десятичными:
data = df[['foo', 'class']].dropna() disc = DecisionTreeDiscretiser(cv=3) disc.fit(data, data['class']) train_t = disc.transform(data) print(train_t['foo'].unique())
Для {"foo": [1,1,1,3,3,3,3], "class": [0,0,1,1,0,1,1]}
этого печатается что-то вроде [0.33333333 0.75]
.
Я предполагаю, что это связано с тем, что DecisionTreeDiscretiser
нормализованные значения? Как я могу легко вернуть оригинал? т. Е. Что-то вроде [-inf,2][2,inf]
?