как сделать одну горячую кодировку для столбца в фрейме данных в python

#python #scikit-learn #one-hot-encoding

#python #scikit-learn #одно горячее кодирование

Вопрос:

У меня есть набор данных, который включает категориальный столбец для уровня образования начальные значения были 0, nan, средняя школа, аспирантура, университет Я очистил данные и преобразовал их в следующие значения

0-> другие 1-> средняя школа 2-> аспирантура 3-> университет

в том же столбце теперь я хочу горячее кодирование этого столбца в 4 столбца

Я попытался использовать scikit learn следующим образом

 onehot_encoder = OneHotEncoder()
onehot_encoded = onehot_encoder.fit_transform(df_csv['EDUCATION'])
print(onehot_encoded)
 

и я получил эту ошибку

 ValueError: Expected 2D array, got 1D array instead:
array=[3 3 3 ... 3 1 3].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
 

Ответ №1:

Для вашего конкретного случая, если вы измените базовый массив (вместе с настройкой sparse=False ), он даст вам ваш однократно закодированный массив:

 import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.DataFrame({'EDUCATION':['high school','high school','high school',
                                'university','university','university',
                                'graduate school', 'graduate school','graduate school',
                                'others','others','others']})

onehot_encoder = OneHotEncoder(sparse=False)
onehot_encoder.fit_transform(df['EDUCATION'].to_numpy().reshape(-1,1))

>>>

array([[0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 1., 0.],
       [0., 0., 1., 0.]])
 

Самый простой подход, на мой взгляд, заключается в использовании pandas.get_dummies :

 pd.get_dummies(df['EDUCATION'])
 

введите описание изображения здесь

Ответ №2:

Вам нужно установить sparse значение False

 from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder(sparse=False)
y_train = np.random.randint(0,4,100)[:,None]
y_train = onehot_encoder.fit_transform(y_train)
 

Или вы также можете сделать что-то вроде этого

 from sklearn.preprocessing import LabelEncoder
from keras.utils import np_utils

y_train = np.random.randint(0,4,100)
encoder = LabelEncoder()
encoder.fit(y_train)
encoded_y = encoder.transform(y_train)
y_train = np_utils.to_categorical(encoded_y)